小児科現場に寄り添う医療音声認識─佐伯医師が導くmocoVoice医療モデル強化の取り組み

進化を続ける音声認識AI mocoVoice。

広島大学病院における「AI問診システム構築のための小児医療面接トレーニングデータ収集」研究の一環として、mocoVoice医療モデルをご導入いただきました。

さらに、mocomoco社では広島大学病院佐伯医師ととも認識精度向上のフィードバックを通じmocoVoice医療モデルを強化しております。今回は、その取り組みについて詳しくお話を伺いました。

インタビュー協力: 佐伯勇医師

1997年に九州大学医学部に入学、2003年に同大学を卒業。2011年に博士号を取得後、福岡市立こども病院外科や広島市民病院小児外科の副部長・部長を歴任し、2020年より広島大学病院小児外科講師／臨床准教授。日本外科学会および日本小児外科学会の指導医資格を有し、多数の学会委員も務める。これまでに臨床・教育・研究の各領域で複数の賞を受賞し、専門誌に百編を超える論文を発表。

インタビュー質問

Q. AI問診システムのトレーニングデータ収集プロジェクトにおいて、mocoVoice医療モデルを導入しようと思われたきっかけや背景を教えてください。

A. 医学生を対象とした問診トレーニングを行い、その内容を文字起こしする必要があったのですが、現状使用しているモデルでは全ての会話が連続して文字起こしされてしまうという問題と、医学用語をほとんどと言っていいほど理解してくれず、また学習もしてくれないため、何度も同じ部分を直す作業にひたすら時間をとられる状況でした。

そこで、音声を文字起こししてくれるサービスの中で、医療モデルで良いものはないかと探していたところ、mocoVoice医療モデルに出会いました。

Q. これまでに検討された他の音声認識システムと比べて、mocoVoice医療モデルを選ばれた理由は何でしょうか？

A. 上記の理由から良いサービスを探していたため、2点を重視しました。
①医学用語を認識してくれること
②学習してくれて、文字起こしの精度が上がってくれること
です。

Q. 導入前に抱えていた業務上の課題や、医療現場において実現したいと考えていたことをお聞かせください。

A. 問診トレーニングの内容をAI学習させるためには、音声を文字起こしするという作業が必須になりますが、AI学習には大量のデータが必要になります。現在医学生を対象としたトレーニングで、1回に2時間程度の音声データを取得していますが、それを文字起こしする作業は膨大なエフォートを要します。まずは文字起こしの精度を向上させる作業をしなくては、AI学習に至らないという課題がありました。

Q. mocoVoice医療モデルの認識精度で、特に評価されている点や印象に残ったエピソードはありますか？

A. 最初の認識精度はまだ低く、必要な医学用語を認識してくれない場合や、うまく聞き取りにくい言葉を難易度の高い医学用語と誤認してしまうといったことが多くありました。しかし、正しい言語に修正して学習してもらううちに、明らかに修正が必要な言語が減っていき、同時に修正作業の労力がおよそ1/4程度まで減少しました。
特に印象に残ったのは、これまでの会話と全く異なる内容の診察が行われた場合でも、これまでの症例での問診内容を学習することにより、精度の高い文字起こしができていたことは驚きでした。そして、長い文章であるほど前後の内容から類推して精度の高い文字起こしとなっており、カンファレンスなどの文字起こしに向いているな…と感じました。

Q. 先生からいただいた書き起こしの誤りフィードバックを通じて、どのようにモデルが改善されたと感じていますか？

A. まずは密に連携をとりながら、「高度な医学用語を認識しすぎる問題」が改善されていきました。その後、実際の医療関係の問診で使用される言語への理解がかなり高まってきたと感じました。そして、複数回のフィードバックを行うほどに更に改善されていることを体感しています。本研究では非常に多くの回数、時間の問診トレーニングの内容を修正しながら学習していくため、モデルの強化に役立っていると感じますし、文字起こしの労力が明らかに軽減していると感じています。

Q. 作業時間削減率やミス削減率など、具体的な定量評価があれば教えてください。

A. あくまでも体感になりますが、最初の作業労力と比べ、現在は1/4～1/6の労力になっています。
実際の作業時間としては、1時間40分程度の音声を聞き返しながら、修正が多いところでは音声を止めて文字の修正をする…という作業を繰り返していくわけですが、最初は3時間半程度かかっていました。それが現在では2時間を切るほどになっており、「修正が必要ないな」と思われる音声の部分をスキップしながら作業できるようになっています。

Q. 今後、mocoVoiceの医療モデルをどのように発展・活用していきたいとお考えですか？

A. 精度が更に向上し、通常のカンファレンスや問診の記録に活用できるようになれば、自分のAIの研究以外にも活用範囲が大きく広がると思っています。活用案としては、インフォームドコンセントの内容や手術記事などの電子カルテに記載する補助として大きな活躍が見込めるのではないかと考えます。

Q. 同じように医療現場で音声認識導入を検討している方々に向けて、アドバイスやメッセージをお願いします。

A. AIによる音声認識のシステムは活用して終了ではなく、修正を行っていくことで更に学習し、能力を高めていくことができると考えています。単回使用で期待したほどではなかった場合でも、複数回使用することで理想的なアイテムへと進化していってくれる可能性があると思います。

Q. 最後に、mocoVoiceと共に歩む今後のビジョンについて、改めて一言いただけますか？

A. 医療従事者の教育や単純作業の労力軽減を考えた際に、AIの導入された音声認識システムは今後必須になってきます。このようなデジタルデバイスを上手に活用することが、現在の医療をサステナブルなものにするために必要であると考えます。

mocoVoice医療モデルについて

mocoVoiceに搭載されている標準モデルに加えて、医学概念・知識連結データベース JMED-DICT miniに収録されている約14万単語を新たに追加学習しました。さらに、広島医大医の講師/臨床准教授　佐伯医師とともに共同で精度向上に取り組んでおり、業界屈指の高精度な書き起こしをご利用いただけます。

ご利用に関しては、お問い合わせよりご相談ください。

謝辞

本インタビューの実施にあたり、多大なるご協力を賜りました佐伯教授をはじめ、広島大学病院小児外科の皆様に深く感謝申し上げます。また、本研究の倫理審査審議にご尽力いただいた広島大学病院倫理委員会の委員の皆様、書き起こし納品およびモデル改善にご協力いただいたmocomoco株式会社の技術チームにも心より御礼申し上げます。