表とテキストを両方含むドキュメントから上手にLLMで情報抽出を行う手法が、北京大学やMicrosoftなどの研究者らによってシェアされています。
セルを空白で区切り、行を改行文字で区切るといった方法などで表のテキスト化することによって、
抽出の精度が格段に上昇することが実験で明らかになったとのことです。
“Enabling and Analyzing How to Efficiently Extract Information from Hybrid Long Documents with LLMs”
■研究背景
世の中の資料は表とテキストを同時に含むものが非常に多くあります。にも関わらず、LLMは通常、その形式の資料を直接処理できません。
■手法「AIE(自動情報抽出)」
1. 表データのテキスト化を行う
(セルを空白で区切り、行を改行文字で区切るPLAIN形式や、コンマでセルを区切るcsv形式など)
2. 長いテキストを適度な長さに区切る
3. Embeddingと類似度計算によってキーワードから情報を取り出す
4. 数値を抽出する
■実験と結果
– 金融レポート、Wikipedia、科学論文でテスト
– GPT-4を用いて、通常よりも大幅に精度の高い結果を得た
(従来の方法だと51.63%、AIEだと85.40%)