2025年9月12日

英語の2人話者に対応したオープンソース話者分離モデルを公開

mocomoco株式会社は、英語に対応した2人話者の話者分離(Speaker Diarization)モデルをオープンソースとして公開しました。
本モデルは以下のリポジトリから利用可能です。

本モデルに関する取り組みは YANS(音声言語情報処理研究会) にて発表を行います。
モデルの設計背景や評価結果、今後の展望について議論し、学術・産業の両面からの発展を目指します。発表詳細はこちらをご覧ください。

モデルの特徴と用途

本モデルは、英語音声における 2人の話者を自動で分離 することを目的に開発されました。
従来型のモデルとは異なり、End-to-End で特徴量抽出から分離までを一貫して処理 します。さらに、前フレーム情報を継続的に参照することで話者IDの一貫性を保持し、長時間の音声でもメモリオーバーを起こさずに利用可能 です。

会議録作成、字幕生成、コールセンター分析など、幅広い応用が想定されています。
また、Pyannote 3.1 との比較検証結果 も公開しており、研究者・開発者が安心して利用できる透明性の高いOSSとなっています。

条件

  • 対応言語: 英語

  • 話者数: 2人固定

  • ベースモデル: BW-EDA-EEND をベースに構築

  • 特徴抽出: CPC (Contrastive Predictive Coding)

  • 音響モデリング: Conformer を採用

  • 推論形態: オフライン (理論上はオンライン処理も可能)

シンプルな実行方法を整備しており、Hugging Face Hub から直接ロードして利用可能です。

アーキテクチャ

本モデルでは CPC による特徴量抽出 を行い、Conformer ベースの強力なエンコーダ で埋め込み表現を獲得します。
これを Transformer デコーダ に入力し、先行研究EENDで提案されたアトラクター計算を組み合わせることで話者分離を実現しています。
さらに、過去フレームの情報を引き継ぐことで話者IDの一貫性を保持し、長時間音声に対しても安定した処理 が可能です。

Conformer-based EEND

課題

今回公開したモデルは 比較的少量のデータで学習 されており、汎化性能には課題が残っています。
高精度に分離できる音源もある一方で、性能が低下するケースも確認されました。埋め込み空間を可視化した結果、声質が似た話者間での分離に限界 があることが判明しています。

研究チームでは引き続きこの課題に取り組み、より高性能なモデルを公開予定 です。今後のアップデートにご期待ください。

(1) 性能の良い音源での可視化

性能の良い音源での可視化

(2) 性能が低下する音源での可視化

性能が低下する音源での可視化

今後の展望

今後、以下の方向で研究開発を進めていきます。

  • 多話者対応モデルの拡張

  • 日本語を含む多言語対応

  • リアルタイム性のさらなる向上

  • IR・医療など特定領域に特化した話者分離の応用

mocomocoは、研究者・開発者に開かれたOSSとして、話者分離技術の進展と社会実装に貢献していきます。

お問い合わせはお問い合わせフォームよりお願いします。


弊社には音声対話分野に強みを持つ研究者が在籍しており、実用性と先進性を両立したAIソリューションを提供しています。

▼ 最先端の文字起こし・議事録AIをお試しください
https://cloud.mocomoco.ai/sign-up

mail

お問い合わせ

ニュース一覧に戻る