RAG(検索拡張生成)を実装する場合にトークン効率を約2倍にする、要するに約半分のトークン数でタスクを実行できるフレームワーク『FIT-RAG』が考案されています。
“FIT-RAG: Black-Box RAG with Factual Information and Token Reduction”より
■背景
RAGで検索された文書には多くの不要なトークンが含まれている可能性があり、LLMを混乱させたりコストを膨らませてしまうことに繋がります。
そこで今回研究者らはフィルタリングや圧縮に繋がるフレームワークを設計し、効果を検証しています。
■『FIT-RAG』の方法論
– 事実情報とLLMの好みの両方を考慮して文書をスコアリングする
– 外部知識が必要かどうかを判断し、不要な取得を避ける
– 不要な文を除去することでトークンを削減する
■実験と結果
– TriviaQA(トリビア愛好家によって作成されたデータセット)、NQ(オープンドメイン問題)、PopQA(〃)で評価
– Llama2-13B-Chat、ChatGPTなどで実験
– 一貫してベースラインを上回る回答精度を達成
– 他のRAG手法と比較して平均で約半分の入力トークンを節約できた