次回の更新記事:LLMに「もっと読みやすくして」とリファクタリングを…(公開予定日:2026年03月02日)

GPT-4+RAG、臨床問題で人間医師超えの精度達成

RAG・検索(検索拡張生成、知識ベース、ベクトル検索)

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-4にRAG(検索拡張生成)を適用することで、臨床医学の問題において、人間の医師よりも高い精度が達成できたと報告されています。

適切なRAGシステム設計により、GPT-4単体よりも10%以上精度が向上し、人間医師よりも5%以上高いスコアを出しています。

“Development and Testing of Retrieval Augmented Generation in Large Language Models – A Case Study Report”より

■研究の背景
1. LLMの医療応用は有望だが課題がある
– リアルタイムの情報
– ガイドラインに沿った対応
2. ドメイン知識に適応するにはRAGが有用

■実験設定
– 診断や手術の知識を網羅する35のデータセットを用意
– データベースにはPineconeを使用
– embeddingにはOpenAIのada-002を使用
– RetrieverにはLangchainのPinecone、llamaindexを使用
(それぞれ検索エンジンとインデックス作成)
– GPT-3.5/4/Llama2-7B/13Bに適用
– 臨床問題で各モデルと人間を比較

■実験結果
– 全部で1260件の回答を評価
– GPT4+RAGが最高のスコアを達成
– 人間医師のスコアを凌駕した

研究者らはこの結果は注目に値するとしつつ、より広範な分野で実験を重ねていくべきとしています。
また、ハルシネーションが低いとはいえ、医学における自動化は慎重であるべきとも述べています。

📄 参照論文

Development and Testing of Retrieval Augmented Generation in Large Language Models — A Case Study Report

著者: 著者:YuHe Ke, Liyuan Jin, Kabilan Elangovan, Hairil Rizal Abdullah, Nan Liu 他

関連記事