表形式データでLLM情報抽出精度が大幅向上

2024.03.09

RAG・検索（検索拡張生成、知識ベース、ベクトル検索）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

表とテキストを両方含むドキュメントから上手にLLMで情報抽出を行う手法が、北京大学やMicrosoftなどの研究者らによってシェアされています。

セルを空白で区切り、行を改行文字で区切るといった方法などで表のテキスト化することによって、
抽出の精度が格段に上昇することが実験で明らかになったとのことです。

“Enabling and Analyzing How to Efficiently Extract Information from Hybrid Long Documents with LLMs”

■研究背景
世の中の資料は表とテキストを同時に含むものが非常に多くあります。にも関わらず、LLMは通常、その形式の資料を直接処理できません。

■手法「AIE（自動情報抽出）」
1. 表データのテキスト化を行う
（セルを空白で区切り、行を改行文字で区切るPLAIN形式や、コンマでセルを区切るcsv形式など）
2. 長いテキストを適度な長さに区切る
3. Embeddingと類似度計算によってキーワードから情報を取り出す
4. 数値を抽出する

■実験と結果
– 金融レポート、Wikipedia、科学論文でテスト
– GPT-4を用いて、通常よりも大幅に精度の高い結果を得た
（従来の方法だと51.63%、AIEだと85.40%）

📄 参照論文

論文情報

📎 論文を読む（doi.org）

X（Twitter）で見る

表形式データでLLM情報抽出精度が大幅向上

📄 参照論文

こちらもどうぞ

🔒 AIエージェント組み込みのGitHub Actionsに見られた脆弱性公式テンプレートも該当

🔒 RAGの進化形と話題のAgentic RAG、ふつうのRAGと何が違うのか

📄 参照論文

こちらもどうぞ

🔒 AIエージェント組み込みのGitHub Actionsに見られた脆弱性 公式テンプレートも該当

🔒 RAGの進化形と話題のAgentic RAG、ふつうのRAGと何が違うのか

🔒 AIエージェント組み込みのGitHub Actionsに見られた脆弱性公式テンプレートも該当