本記事では、LLMをドメインに適応させるためのアプローチを紹介します。生コーパスを「読解タスク」に応じた内容のテキストに変換してLLMの学習に利用する手法です。
生物医学、金融、法律の3分野で検証が行われ、一般的なタスクでの性能も評価されました。
参照論文情報
- タイトル:Adapting Large Language Models to Domains via Reading Comprehension
- 著者:Daixuan Cheng, Shaohan Huang, Furu Wei
- 所属:Microsoft Research, Beijing Institute for General Artificial Intelligence (BIGAI)
- その他の情報:ICLR2024に採択
背景
LLMを実用するにあたっては、専門的な分野に対する知識を持つように調整することが必要だと考えられています。
これまで、専門分野向けLLMを開発するアプローチとしては、主に3つの方法が採用されてきました。
1つ目は、専門分野のデータと一般的なデータを組み合わせてゼロからモデルを学習させる方法です。この方法はシンプルですがコストが高くなってしまいます。
2つ目は、教師あり学習データセットを用いてファインチューニングする方法です。コスト効率が良いものの、タスクに特化しすぎてしまい、汎用的な専門知識の獲得が難しいという問題があります。
3つ目は、一般的なLLMに専門知識を含む情報を与えてプロンプティングする方法ですが、これはLLM自体を改善するというよりは、LLMの応用方法の一つと考えられています。
そこで本研究では、人間の学習プロセスにヒントを得た新しいアプローチが考案されました。「読解問題に取り組んだあとに練習問題を解く」と質問応答能力が向上しているという考え方です。
この着想から、生コーパスを読解問題に変換する手法が提案され、成果が出ました。
なお生コーパスとは、自然言語での実例を集めた大規模なテキストデータ集合を指します。人為的に作成されたものではなく、実際の文書、記事、会話などから収集された「生の」テキストデータです。本研究では、各ドメイン(生物医学、金融、法律)に関連する大量のテキストデータが生コーパスとして使用されています。
以下で提案手法と実験結果を詳しく紹介します。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。