Googleなどの研究者らによると、LLMは、ある文章をナンセンスな文字列に置き換えたテキストから、元の意味を復元するのが極めて得意とのこと。
例えば「He dwushed a ghanc zawk」という文を正確に「He dragged a spare chair(彼は予備の椅子を引きずった)」と翻訳できたり。
なお、この「ナンセンスな文字列に置き換え」はジャバウォッキー化(Jabberwockified)と呼ばれる作業で行われます。
スポーツニュースやRedditの投稿など、モデルの訓練データに含まれていないことが確実な最新テキストでも、同様の翻訳が可能。
また、すべての内容語を「BLANK(空)」に置き換えた文章でも、LLMは構造パターンだけから元の意味を復元できるそうです。
なお、ほんの少しのヒントを与えるだけで、翻訳精度が劇的に向上することも明らかに。
この結果は、LLMがぼやけた情報を「復元」できる圧縮スキームを学習していることを示しています。
「パターンマッチングの原理は揶揄されがちだが、パターンマッチングによってこそ、こうした素晴らしい現象が起きている」と述べられています。
また、論文外の話になりますが、日本語の文をジャバウォッキー化でナンセンスな文字列にしたものをLLMで解読させたところ、確かにある程度の精度で読み取りが可能でした。
📄 参照論文
The unreasonable effectiveness of pattern matching
所属: University of Wisconsin–Madison, Google