AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(1,093件) 短信(799件) 🔒 論文(54,077件) 🔒

LLMに専門的なドメイン知識を学ばせるのに有効な「読解タスクテキストに変換する」テクニック

2024.07.312025.03.08

深堀り解説

本記事では、LLMをドメインに適応させるためのアプローチを紹介します。生コーパスを「読解タスク」に応じた内容のテキストに変換してLLMの学習に利用する手法です。

生物医学、金融、法律の3分野で検証が行われ、一般的なタスクでの性能も評価されました。

参照論文情報

タイトル：Adapting Large Language Models to Domains via Reading Comprehension

著者：Daixuan Cheng, Shaohan Huang, Furu Wei

所属：Microsoft Research, Beijing Institute for General Artificial Intelligence (BIGAI)

その他の情報：ICLR2024に採択

背景

LLMを実用するにあたっては、専門的な分野に対する知識を持つように調整することが必要だと考えられています。

これまで、専門分野向けLLMを開発するアプローチとしては、主に3つの方法が採用されてきました。
1つ目は、専門分野のデータと一般的なデータを組み合わせてゼロからモデルを学習させる方法です。この方法はシンプルですがコストが高くなってしまいます。
2つ目は、教師あり学習データセットを用いてファインチューニングする方法です。コスト効率が良いものの、タスクに特化しすぎてしまい、汎用的な専門知識の獲得が難しいという問題があります。
3つ目は、一般的なLLMに専門知識を含む情報を与えてプロンプティングする方法ですが、これはLLM自体を改善するというよりは、LLMの応用方法の一つと考えられています。

そこで本研究では、人間の学習プロセスにヒントを得た新しいアプローチが考案されました。「読解問題に取り組んだあとに練習問題を解く」と質問応答能力が向上しているという考え方です。

この着想から、生コーパスを読解問題に変換する手法が提案され、成果が出ました。

なお生コーパスとは、自然言語での実例を集めた大規模なテキストデータ集合を指します。人為的に作成されたものではなく、実際の文書、記事、会話などから収集された「生の」テキストデータです。本研究では、各ドメイン（生物医学、金融、法律）に関連する大量のテキストデータが生コーパスとして使用されています。

以下で提案手法と実験結果を詳しく紹介します。

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
研究紹介短信ライブラリの基本機能

プレミアム会員の特典

全過去記事の無制限閲覧
専門家による最新リサーチ結果を記事で購読（平日毎日更新）
日本語検索対応の新着AI論文データベース
研究紹介短信ライブラリの高度な機能を開放
記事内容質問AIを使用可能に

まずはアカウントを作成

ログイン

プレミアム会員について

LLMに専門的なドメイン知識を学ばせるのに有効な「読解タスクテキストに変換する」テクニック

背景

記事検索

こちらもどうぞ

🔒 キーボード打鍵音から入力文字を特定するハッキング技術の精度が高いことが判明

🔒 「AIっぽくて白ける」現象の正体