「LLMの対話履歴は、テキストより画像で覚えさせたほうが効率的」という大胆な発想が、実際に役立つと示されました。
実験の結果、32kトークンの長文脈でも94%の検索精度を保ち、テキスト比で10倍以上の圧縮率を達成。
長い対話履歴はテキストだとコンテキストを圧迫するので、いっそ画面をそのまま 画像化して保存してしまおうという話です。
各テキスト断片に赤枠と番号を振っておき、検索時はモデルに「どの番号が関連するか」だけ答えさせ、原文は別ログから正確に引き出す仕組み。
また、古い記憶は低解像度のサムネイルに落として節約し、必要になったときだけ高解像度に復元する。
人間の「鮮明から曖昧へ」という記憶の性質を模倣した格好です。
LLMの記憶はテキストで持つもの、という思い込みをとっぱらう発見です。
※引き換えにディスク使用量と検索レイテンシは増える、というトレードオフはあります。