【論文解説】医学的応答に対するAIの精度と信頼性の評価: Chat-GPT モデルの評価

Assessing the Accuracy and Reliability of AI-Generated Medical Responses: An Evaluation of the Chat-GPT Model

Douglas Johnson, Rachel Goodman, Cosby Stone, Eli Zimmerman, Rebecca Donald, Sam Chang, Sean Berkowitz, Avni Finn, Eiman Jahangir, Elizabeth Scoville, Tyler Reese, Debra Friedman, Julie Bastarache, Yuri van der Heijden, Jordan Wright, Nicholas Carter, Matthew Alexander, Jennifer Choe, Cody Chastain, John Zic, Sara Horst, Isik Turker, Rajiv Agarwal, Evan Osmundson, Kamran Idrees, Colleen Kiernan, Chandrasekhar Padmanabhan, Christina Bailey, Cameron Schlegel, Lola Chambless, Mike Gibson, Travis Osterman, Lee Wheless

Research Square 2023 Feb. 28

Chat-GPTの医学的有用性についての論文を高橋先生が紹介しました。

AIには、ルールベース型、機械学習(教師あり、なし)、強化学習があり、機械学習の一つとして、深層学習(ディープラーニング)が近年増えてきています。

Chat-GPTは、深層学習を用いた技術で、3つのステップで学習を重ねています。ステップ1では、ラベルなしの大量データセットを入力し、これを自己教師あり学習モデルで事前学習、ステップ2では、小規模でタスク固有のラベル付きデータセットでステップ1での学習を微調整、ステップ3では、人(user)のフィードバックによりさらに調整を加えています。

本研究では、Chat-GPT 3.5を用いています。1つ目のデータセットは、17の領域から最低1人ずつの臨床医、計33人の臨床医が、既存のガイドラインから明確な回答のある質問をそれぞれ6つ(3つは正誤方式で難中易の3段階、3つは記述式で同様に難中易の3段階)を作成、2つ目のデータセットはメラノーマの免疫療法に特化した44の質問、3つ目のデータセットは10の一般的な病態からの60の質問、からなっており、これらをChat-GPTに入力し出力回答は質問作成者に送付して、回答の正確性を6段階で評価、完全性を3段階で評価しています。

その結果、正確性の中央値は5〜6点と総じて良い結果であり、完全性においても同様の結果でした。評価点が非常に低かったものでも、8〜17日後に同様の質問をすると、評価点が上がっていました。評価点は、質問の種類や難易度による差がなく、自由記述形式の質問にも十分適用できていました。

考察としては、全体として回答の中央値が平均値より高値であり、間違える場合には、驚くほど大幅に回答がずれていることが多く、やはり結果には人による確認が必要と考えられました。1回目の回答の評価点が低くても約2週間後に改善したのは、更新と再定義を反復して学習しているため、正しい回答に到達できたと思われました。

今回のlimitationとしては、限られた医療分野のみであったこと、質問と回答の正確性を検証するメカニズムがないこと、医師の主観での評価によるためバイアスが生じた可能性があること、などが挙げられます。

現在、不整脈グループでは左房平均voltage(VGLA)の測定について、AIを活用した研究を進めており、これを紹介しました。

発表:高橋先生、文責:矢島

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

目次