2025年9月12日

英語の2人話者に対応したオープンソース話者分離モデルを公開

mocomoco株式会社は、英語に対応した2人話者の話者分離（Speaker Diarization）モデルをオープンソースとして公開しました。
本モデルは以下のリポジトリから利用可能です。

本モデルに関する取り組みは YANS（音声言語情報処理研究会） にて発表を行います。
モデルの設計背景や評価結果、今後の展望について議論し、学術・産業の両面からの発展を目指します。発表詳細はこちらをご覧ください。

モデルの特徴と用途

本モデルは、英語音声における 2人の話者を自動で分離 することを目的に開発されました。
従来型のモデルとは異なり、End-to-End で特徴量抽出から分離までを一貫して処理 します。さらに、前フレーム情報を継続的に参照することで話者IDの一貫性を保持し、長時間の音声でもメモリオーバーを起こさずに利用可能 です。

会議録作成、字幕生成、コールセンター分析など、幅広い応用が想定されています。
また、Pyannote 3.1 との比較検証結果 も公開しており、研究者・開発者が安心して利用できる透明性の高いOSSとなっています。

条件

対応言語: 英語
話者数: 2人固定
ベースモデル: BW-EDA-EEND をベースに構築
特徴抽出: CPC (Contrastive Predictive Coding)
音響モデリング: Conformer を採用
推論形態: オフライン (理論上はオンライン処理も可能)

シンプルな実行方法を整備しており、Hugging Face Hub から直接ロードして利用可能です。

アーキテクチャ

本モデルでは CPC による特徴量抽出 を行い、Conformer ベースの強力なエンコーダ で埋め込み表現を獲得します。
これを Transformer デコーダ に入力し、先行研究EENDで提案されたアトラクター計算を組み合わせることで話者分離を実現しています。
さらに、過去フレームの情報を引き継ぐことで話者IDの一貫性を保持し、長時間音声に対しても安定した処理 が可能です。