LLMへの入力プロンプトを「意味を保持したまま」高度に圧縮する技術『LLMLingua』

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

Microsoftの研究チームは、従来の大規模言語モデル(LLM)への入力プロンプトを効率的に圧縮し、意味そのものは維持する技術『LLMLingua』を開発しました。

本技術は、長いプロンプトによってLLMの応答速度が遅延したりコストが高くなったりしてしまう問題に対処するものです。

実施された実験では、LLMLinguaが他の手法に比べて優れた性能を示し、さまざまなタスクにおいてもその効果が確認されました。

本記事では詳細を見ていきます。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

本記事の関連研究LLMZip:大規模言語モデルがテキスト圧縮の新境地を開く

研究の背景

LLMに与えられるプロンプトは、長くなりがちです。時には数千、場合によっては数万のトークンにまで及ぶことがあります。プロンプトが長いと、モデルの推論速度の遅延を引き起こし、コストが増加する原因にもなります。

チェーンオブソート(CoT)やインコンテキスト学習(ICL)など、プロンプト手法が探求されるにつれて、ますます多くの情報をプロンプトに含める状況になっているのも理由の一つです。

このような問題を解決するため、世の研究者たちや技術者たちは、プロンプトを効率的に圧縮する方法を探っています。今回、Microsoftの研究者らによって開発された「LLMLingua」は、そんなプロンプト圧縮の最新手法です。

本記事の関連研究ChatGPTの効果的なプロンプト手法における「基本のキ」を理論とテンプレート両方で紹介

LLMLinguaの主要なポイント

以下にLLMLinguaの主な特徴を並べます。

1. 重要な情報を保持する

LLMLinguaは、プロンプト圧縮時に重要な情報を損なうことなく、セマンティックな一貫性を維持することに重点を置いています。後述する「予算コントローラー」というコンポーネントが重要な役割を果たしています。

2. LLMの推論速度が向上する

小規模モデルを使用して効率よく情報を圧縮し、大規模モデルとの間にある分布のギャップに対処することで、LLMの推論速度の向上を実現するとのことです。
計算プロセスを増大させることなく、効果的な情報の維持を行います。

3. 計算コストが削減される

圧縮されたプロンプトは、元のプロンプトに含まれる推論情報を効果的に保持し、たとえ圧縮率が14倍や20倍に達しても、パフォーマンスのわずかな低下のみで計算コストを抑えることができるとされています。

本記事の関連研究基盤モデル(GPT-4)はプロンプトの工夫で専門特化モデルに匹敵するほど性能が向上することが「医学分野」で示唆される

LLMLinguaのフレームワーク






1. 大雑把な圧縮とトークンレベルでの圧縮の組み合わせ

圧縮プロセスには、2つの異なるステージがあります。

まず、

本記事を読むにはAIDBのアカウントが必要です。


※ログイン/初回登録後、下記ボタンを押してください。


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP