医療AIの性能を検証する大規模プロジェクト、MITやハーバード、マイクロソフトなど始動

「医療AIの性能を大規模で多様な患者集団で検証」する国際的プロジェクトを、MIT、ハーバード、スタンフォード、マイクロソフトなどの機関が共同で開始しました。

医療AIが急速に開発されている一方で、その評価は十分に行われていません。そこで、このプロジェクトでは、医療AIの性能を広範で定量的に評価する新たなプラットフォームMedPerfを開発しました。

このプラットフォームでは、参加する各医療施設に医療AIモデルが安全に配布され、それぞれの施設の独自のデータを用いてモデルが評価されます。

参照論文情報

タイトル：Federated benchmarking of medical artificial intelligence with MedPerf

著者：Alexandros Karargyris et al.

所属：University of Strasbourg、MIT、ハーバード、マイクロソフトなど

URL：https://doi.org/10.1038/s42256-023-00652-2

GitHub：https://github.com/mlcommons/medperf

ウェブサイト：https://www.medperf.org/

関連研究

ChatDoctor: 医療分野特化の大規模言語モデル

大規模言語モデルGPT-4、日本の医師国家試験に合格　国際研究チームが論文報告

AIが生成したテキストが事実なのか確認する手法「FacTool」が登場

MedPerfの全体像

MedPerfは、医療AIモデルのベンチマーキングを目的とした革新的なオープンプラットフォームです。異なる施設に安全にモデルを配布し、効率的かつ人間監督のプロセスでAIモデルの性能を評価することを可能にします。プライバシーの保護を最優先にし、多くの国際機関との連携が進んでいます。

背景と課題

医療AIモデルの評価は、多様な臨床データを用いた大規模な検証が必要です。しかし、データの共有にはリスクとコストが伴い、セキュリティとプライバシーの問題が常に懸念されていました。この課題は、医療AIの進展を妨げる主要な障壁となっていました。

MedPerfの解決策

MedPerfは、データの共有ではなく、モデルの共有によって評価を行う連邦型の評価を提供します。このアプローチにより、データのプライバシーリスクを大幅に削減し、多様なデータでの評価を現実的にします。さらに、異なる施設間での協力を促進し、より広範な患者集団に対するモデルの効果を正確に測定することが可能になります。