
2025年9月12日
mocomoco株式会社は、英語に対応した2人話者の話者分離(Speaker Diarization)モデルをオープンソースとして公開しました。
本モデルは以下のリポジトリから利用可能です。
本モデルに関する取り組みは YANS(音声言語情報処理研究会) にて発表を行います。
モデルの設計背景や評価結果、今後の展望について議論し、学術・産業の両面からの発展を目指します。発表詳細はこちらをご覧ください。
本モデルは、英語音声における 2人の話者を自動で分離 することを目的に開発されました。
従来型のモデルとは異なり、End-to-End で特徴量抽出から分離までを一貫して処理 します。さらに、前フレーム情報を継続的に参照することで話者IDの一貫性を保持し、長時間の音声でもメモリオーバーを起こさずに利用可能 です。
会議録作成、字幕生成、コールセンター分析など、幅広い応用が想定されています。
また、Pyannote 3.1 との比較検証結果 も公開しており、研究者・開発者が安心して利用できる透明性の高いOSSとなっています。
対応言語: 英語
話者数: 2人固定
ベースモデル: BW-EDA-EEND をベースに構築
特徴抽出: CPC (Contrastive Predictive Coding)
音響モデリング: Conformer を採用
推論形態: オフライン (理論上はオンライン処理も可能)
シンプルな実行方法を整備しており、Hugging Face Hub から直接ロードして利用可能です。
本モデルでは CPC による特徴量抽出 を行い、Conformer ベースの強力なエンコーダ で埋め込み表現を獲得します。
これを Transformer デコーダ に入力し、先行研究EENDで提案されたアトラクター計算を組み合わせることで話者分離を実現しています。
さらに、過去フレームの情報を引き継ぐことで話者IDの一貫性を保持し、長時間音声に対しても安定した処理 が可能です。

今回公開したモデルは 比較的少量のデータで学習 されており、汎化性能には課題が残っています。
高精度に分離できる音源もある一方で、性能が低下するケースも確認されました。埋め込み空間を可視化した結果、声質が似た話者間での分離に限界 があることが判明しています。
研究チームでは引き続きこの課題に取り組み、より高性能なモデルを公開予定 です。今後のアップデートにご期待ください。
(1) 性能の良い音源での可視化

(2) 性能が低下する音源での可視化

今後、以下の方向で研究開発を進めていきます。
多話者対応モデルの拡張
日本語を含む多言語対応
リアルタイム性のさらなる向上
IR・医療など特定領域に特化した話者分離の応用
mocomocoは、研究者・開発者に開かれたOSSとして、話者分離技術の進展と社会実装に貢献していきます。
お問い合わせはお問い合わせフォームよりお願いします。
弊社には音声対話分野に強みを持つ研究者が在籍しており、実用性と先進性を両立したAIソリューションを提供しています。
▼ 最先端の文字起こし・議事録AIをお試しください
https://cloud.mocomoco.ai/sign-up
お問い合わせ
ニュース一覧に戻る