GPT-4にRAG(検索拡張生成)を適用することで、臨床医学の問題において、人間の医師よりも高い精度が達成できたと報告されています。
適切なRAGシステム設計により、GPT-4単体よりも10%以上精度が向上し、人間医師よりも5%以上高いスコアを出しています。
“Development and Testing of Retrieval Augmented Generation in Large Language Models – A Case Study Report”より
■研究の背景
1. LLMの医療応用は有望だが課題がある
– リアルタイムの情報
– ガイドラインに沿った対応
2. ドメイン知識に適応するにはRAGが有用
■実験設定
– 診断や手術の知識を網羅する35のデータセットを用意
– データベースにはPineconeを使用
– embeddingにはOpenAIのada-002を使用
– RetrieverにはLangchainのPinecone、llamaindexを使用
(それぞれ検索エンジンとインデックス作成)
– GPT-3.5/4/Llama2-7B/13Bに適用
– 臨床問題で各モデルと人間を比較
■実験結果
– 全部で1260件の回答を評価
– GPT4+RAGが最高のスコアを達成
– 人間医師のスコアを凌駕した
研究者らはこの結果は注目に値するとしつつ、より広範な分野で実験を重ねていくべきとしています。
また、ハルシネーションが低いとはいえ、医学における自動化は慎重であるべきとも述べています。
📄 参照論文
Development and Testing of Retrieval Augmented Generation in Large Language Models — A Case Study Report