LLMの情報抽出(文章から必要な事柄を読み取る)タスクについての網羅的な調査結果が報告されています。
現時点での展望は、実用性の高いソリューションを開発すること、さまざまな分野へ対応することなどとされています。
“Large Language Models for Generative Information Extraction: A Survey”より
■情報抽出の主なタスクとは
1. 名前付きエンティティ認識
ex. 人物名、場所、組織名などを分類する
2. (エンティティ間の)関係抽出
ex. AさんはX社で働いている、などを識別する
3. イベント抽出
ex. 〇〇が発生した、などを検出する
※エンティティとは:
テキスト内で識別可能な概念のこと
■精度を上げるための施策
1. 訓練データを多様化する
2. ドメイン固有の知識を組み込む
3. より高度なモデルを開発する
4. アプリケーションに対応するよう微調整する
5. 評価指標と分析手法を改善する
なお、LLMの情報抽出能力は、F1スコアや再現率(Recall)などで測定できるとのことです。