GPT-4+RAG、臨床問題で人間医師超えの精度達成

2024.02.07

RAG・検索（検索拡張生成、知識ベース、ベクトル検索）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

GPT-4にRAG（検索拡張生成）を適用することで、臨床医学の問題において、人間の医師よりも高い精度が達成できたと報告されています。

適切なRAGシステム設計により、GPT-4単体よりも10%以上精度が向上し、人間医師よりも5%以上高いスコアを出しています。

“Development and Testing of Retrieval Augmented Generation in Large Language Models – A Case Study Report”より

■研究の背景
1. LLMの医療応用は有望だが課題がある
– リアルタイムの情報
– ガイドラインに沿った対応
2. ドメイン知識に適応するにはRAGが有用

■実験設定
– 診断や手術の知識を網羅する35のデータセットを用意
– データベースにはPineconeを使用
– embeddingにはOpenAIのada-002を使用
– RetrieverにはLangchainのPinecone、llamaindexを使用
（それぞれ検索エンジンとインデックス作成）
– GPT-3.5/4/Llama2-7B/13Bに適用
– 臨床問題で各モデルと人間を比較

■実験結果
– 全部で1260件の回答を評価
– GPT4+RAGが最高のスコアを達成
– 人間医師のスコアを凌駕した

研究者らはこの結果は注目に値するとしつつ、より広範な分野で実験を重ねていくべきとしています。
また、ハルシネーションが低いとはいえ、医学における自動化は慎重であるべきとも述べています。

📄 参照論文

Development and Testing of Retrieval Augmented Generation in Large Language Models — A Case Study Report

著者: 著者：YuHe Ke, Liyuan Jin, Kabilan Elangovan, Hairil Rizal Abdullah, Nan Liu 他

📎 論文を読む（arxiv.org）

X（Twitter）で見る

GPT-4+RAG、臨床問題で人間医師超えの精度達成

📄 参照論文

こちらもどうぞ

🔒 どのLLMが最も長文要約性能が高いのか評価した実験結果　データセットと要約ノウハウも公開

🔒 AIエージェントは”誰の仕事”を見ているのか？7万超のタスクで浮かんだ労働市場とのズレ

📄 参照論文

こちらもどうぞ

🔒 どのLLMが最も長文要約性能が高いのか評価した実験結果 データセットと要約ノウハウも公開

🔒 AIエージェントは”誰の仕事”を見ているのか？7万超のタスクで浮かんだ労働市場とのズレ

🔒 どのLLMが最も長文要約性能が高いのか評価した実験結果　データセットと要約ノウハウも公開