LLMと解釈可能モデルを連携させることで、データサイエンスの様々なタスクを半自動的に行える可能性が示唆されています。
Tubingen大学(ドイツ)、MIT、ハーバード、Microsoftによる報告です。
“Data Science with LLMs and Interpretable Models”より
■研究背景
データサイエンスにおいては、特定分野のエキスパートが分析用モデルによる出力を解釈できることが重要です。
そこで、人間が自然言語でモデルとやりとりできるように、解釈可能なデータ分析モデルとLLMを連携させる取り組みが試みられました。
■方法論
1. 解釈可能なデータ分析用モデル(今回はGeneralized Additive Models (GAM))を訓練する
2. 上記モデルの出力結果(グラフ形式)をJSONテキストに変換し、LLMに入力する
3. LLMによる多段階推論で、グラフ全体の解釈を行い、各グラフの要約を行う
■実験結果
– GPT-3.5/4を使用した検証の結果、GPT-4はグラフから値を読み取るタスクで高い成功率を示しています。
– さらにGPT-4はタスクに対して影響する特徴を的確に説明することにも成功したと報告されています。
– なお具体的なタスクとして、異常検出において人間が気づきにくいパターンを指摘し、説明できたとのことです。