2025年11月18日

医療現場の「言った言わない」を防げるか？ AI音声認識が小児外科の最前線にもたらす変革

本インタビュー記事は、mocomoco株式会社 (弊社) の提供する音声認識AI mocoVoiceにより生成されました。

この度、mocoVoice 医療モデルの共同開発にご協力いただいている、広島大学病院の佐伯勇医師にインタビューを行いました。

AI音声認識技術が急速に進化する中、医療現場のように極めて高い専門性と正確性が求められる分野で、AIはどこまで「使える」のでしょうか。広島大学病院の小児外科医である佐伯医師と、音声認識AI「mocoVoice 医療モデル」研究開発担当の大西氏が、医療モデルAIの共同開発について対談しました。

佐伯勇（さえきいさむ）医師

1997年に九州大学医学部に入学、2003年に同大学を卒業。2011年に博士号を取得後、福岡市立こども病院外科や広島市民病院小児外科の副部長・部長を歴任し、2020年より広島大学病院小児外科講師／臨床准教授。日本外科学会および日本小児外科学会の指導医資格を有し、多数の学会委員も務める。これまでに臨床・教育・研究の各領域で複数の賞を受賞し、専門誌に百編を超える論文を発表。

取締役 CRO 大西一誉 (おおにしかずよ)

舞鶴高専および専攻科を修了後、NAISTにて工学修士号を取得。現在は理化学研究所にて対話型AIの研究に従事。綿密なリサーチを根拠としたユーザー視点でプロダクトを開発し、事業成長を牽引している。

1. 医療現場の壁：「視診」が「指針」になるAI

大西: 本日はよろしくお願いします。佐伯先生にはmocoVoiceの医療モデル開発にご協力いただいています。まずは先生の自己紹介と、取り組みの背景についてお伺いできますでしょうか。

佐伯: 広島大学病院で小児外科医をしている佐伯です。小児外科医は臓器別ではなく、生まれたばかりの赤ちゃんから、胸やお腹、泌尿器系まであらゆる子どもの手術を担当します。

それと同時に、私は医学生の教育にも力を入れています。特に「問診」や「診察」の技術をトレーニングする教育プログラムを構築する研究を進めており、その研究のためにAIによる文字起こしが必要になりました。

大西: そこでmocoVoiceを導入いただくわけですが、それ以前はどのような課題が？

佐伯: 当初、市販のAI文字起こしモデルを使ってみたのですが、精度が非常に低かったのです。特に医療用語の認識が難しく、その背景には日本語特有の「同音異義語」の多さがあると思います。

例えば、医師が診察で『見る』ことを『視診（ししん）』と言います。しかし、一般的なAIモデルでは、これを指で刺す方の『指針』と誤って文字起こししてしまう。これが医療用語のほぼ全てで起こる状態でした。

2. AI学習の威力：修正時間「5時間」が「1時間未満」に

大西: 医療分野は一般的な単語が少なく、弊社が医療モデルを提供していたことが、精度向上につながったかと思います。mocoVoiceの導入で、状況は変わりましたか？

佐伯: はい。通常のAIでは、1ページあたり10箇所以上の修正が必要でした。mocoVoiceさんにお願いし、共同で精度を高めていこうと始めた当初でも、まだ1ページに6～7個の修正箇所がありました。

しかし、AI学習のすごさを実感したのはここからです。2時間以上の学習データを元にしたチューニングを20回近く繰り返していくうちに、劇的に精度が上がりました。最終的には、1ページに修正すべき箇所が1つか2つ、あるいは全くないレベルまで向上しました。

これが実際の文字起こしの間違い部分である。通常の文字起こしでは間違い=黄色い部分が目立つのに対して、mocoVoice医療モデルをチューニングすることでその差は明確に間違いが減少した。

大西: それまでは、間違いの部分は先生が手直しを？

佐伯: そうです。研究を始めてしまった手前、自分でやるしかなかったのですが、2時間の録音を聞き直して修正するのに、毎回5時間ほどかかっていました。正直、このままでは身が持たないと思っていたところでした。 mocoVoiceの精度が上がった研究の最後のあたりでは、同じ2時間の録音の修正が1時間かからずに終わるようになり、劇的に負担が減りました。

3. 小児外科特有の壁：「大泉門」と「うんち」

大西: 今回の取り組みでは、佐伯先生の専門である「小児外科」の単語にチューニングを進めてきました。この点についてはいかがでしたか？

佐伯: ここは2つの面で苦労しましたね。 1つ目は、本当に小児科・小児外科でしか使わない専門用語です。例えば、赤ちゃんの頭にある「大泉門（だいせんもん）」や、新生児の評価スコアである「アプガースコア」、おむつに関する会話などです。これらも、AIが学習を重ねることで認識できるようになりました。

大西: 私も「大泉門」はチューニングする中で初めて知りました。漢字は簡単でも、背景知識がないと認識が難しい単語の典型でした。

佐伯: もう1つが、一般的には「汚い言葉」として扱われる単語です。例えば「うんち」「おしっこ」「おちんちん」といった言葉です。医師はこれらを診察上、全く抵抗なく（むしろ抵抗があったらダメなのですが）使います。

しかし、最近のAIは、ChatGPTなどもそうですが、こうした言葉をフィルタリングしたり、なかったことにしがちです。通常の文字起こしソフトだと「●●●●」のように伏字にされてしまい、聞き直す手間が非常に大きかった。

大西: まさにその通りで、一般的なAIは卑猥な単語や危険な単語を表示しない仕組みになっています。しかし、今回は「医療モデル」です。医師が発した言葉は、それがたとえ一般的に不適切とされる単語であっても、正確に書き起こされるべきです。そこは私の方で、医療現場のニーズとしてしっかりとチューニングをかけ、意図的に認識・表示させるようにしました。

4. セキュリティと実装：なぜ「オンプレミス」が必須なのか

大西: 医療でAIを使う以上、電子カルテへの応用などが考えられますが、同時にプライバシーやデータセキュリティは最重要課題です。

佐伯: その通りです。医師の立場としては、日々の電子カルテの打ち込み作業を減らしてほしい、というのが本音です。

実は、今の若い医学生はスマートフォンでの入力には慣れていますが、パソコンのブラインドタッチができない人が驚くほど多い。そういった技能に左右されず、スムーズにカルテ入力ができる音声認識は非常に重要です。

大西: そうした電子カルテは、クラウドにデータを上げるのは難しいですよね。

佐伯: はい。大規模な病院ほど、ネットワークは院内だけで完結する「イントラネット」になっています。したがって、インターネット（クラウド）にデータを送るのではなく、院内の端末（オンデバイス）で処理が完結する「オンプレミス型」が求められます。

大西: 弊社もオンプレミスでの提供を考えていますが、ここには技術的なトレードオフがあります。AIはモデルが大きく高性能になるほど、動かすために非常に強力な（そして高価な）マシンパワーが必要です。かといって、モデルを軽く小さくすれば精度が落ちてしまう。 mocoVoiceでは、「精度は高く、しかしモデルは軽く早く動かす」という両立に取り組んでおり、この点はオンプレミス提供において大きな強みになると自負しています。

実際のオンプレミス提供のmocoVoice (イメージ)

5. 医療AIが直面する3つのシーンと「インフォームド・コンセント」の壁

佐伯: 医療現場で文字起こしが求められるシチュエーションは、大きく3つあると思っています。

カンファレンス: 医師や看護師が患者さんの方針を議論する会議の議事録です。
一般診察: 患者さんと医師が1対1で話す内容を、サマライズして電子カルテに入力する補助です。特に小児科は「親と話しながら、暴れる子どもを診察する」という「1対2」が基本なので、カルテ入力補助は本当に助かります。
インフォームド・コンセント（IC）: 患者さんに治療の詳しい説明をし、同意を得るプロセスです。

佐伯: この3つ目が最も重要かつ難しい。ICでは、後から「言った」「言わない」という問題が絶対に起きてはなりません。

以前、内視鏡の処置で「胃カメラと同じだから」と説明した・しないが問題になった事例もありました。ここでは、AIが行き過ぎた解釈をしてはいけないのです。

大西: 非常に興味深いご指摘です。弊社のAIでも、例えば患者さんが「吐いた（はいた）」と発話したものが、AIによって「嘔吐（おうと）」という医療用語に変換されてしまう事例が医療モデルだからこそまだあります。一般的な要約なら意味が通じますが、ICの観点では「吐いた」と発話した事実が「嘔吐」に書き換えられては絶対にいけない。これは医療AIにとって非常に重要な課題です。

佐伯: まさにその通りです。AI開発企業側が「これならいいでしょう」と素晴らしい機能を持ってきても、医師の本音として「ICの面を考えると（解釈が入り込むAIは）使えない」となることが多々ありました。今回のmocoVoiceさんのように、現場の深いニーズ（デプスインタビュー）に基づいて歩調を合わせてプロダクトを作ってくれる企業は、非常に重要だと感じています。

6. 10年後、AI音声入力は「当たり前」になる

大西: 最後に、医療モデルが今後、医療業界にどのような影響を与えていくか、先生のビジョンをお聞かせください。

佐伯: 私はこの半年でAIの恩恵を強く感じました。たった50時間程度の学習データでも、これだけ精度が上がる。これがビッグデータになれば、精度はさらに高まり、相乗効果で電子カルテは一気に進化する未来があると思っています。

私が医者になった20年以上前は紙カルテでした。そこから電子カルテが導入され、今や電子カルテのない病院はほとんどない。この変化はたった10年、20年で起きています。時代はどんどん加速しているので、今から10年のうちには、音声認識によるAI電子カルテが当たり前に広まっているのではないでしょうか。そこで、医療に特化したmocoVoiceの役割は大きいと期待しています。

大西: ありがとうございます。私たちも「現場に合わせたAI」を常に目指しています。

佐伯: 医師の過重労働や働き方がこれだけ問題視される中で、こうした取り組みが現場の負担を少しでも楽にしてくれることを願っています。

大西: 本日は貴重なお話をありがとうございました。

mocoVoice医療モデルについて

mocoVoiceに搭載されている標準モデルに加えて、医学概念・知識連結データベース JMED-DICT miniに収録されている約14万単語を新たに追加学習しました。さらに、広島医大医の講師/臨床准教授　佐伯医師とともに共同で精度向上に取り組んでおり、業界屈指の高精度な書き起こしをご利用いただけます。オンプレミス/オンデバイスでの提供も行っております。

ご利用に関しては、お問い合わせよりご相談ください。