東京大学の研究者らがLLMの「暗記」能力について調べたところ、同じくらい大きいモデルでも、どれだけ暗記するかは最大で100倍くらい差があったとのことです。「性能が高いモデルほど暗記が強い」とは単純には言えず、学習データや訓練方法の違いがかなり影響しそうという結論。
また、以下のようなことがわかったそうです。
①モデルが大きくなるほど暗記は増える。②いったん暗記した内容は、元の文の半分以下の手がかりでも思い出せることがある。③暗記されやすいのはコードや数式のような構造がはっきりした文。④大きなモデルになると普通の自然文も暗記しやすくなる。
LLMが何かを暗記すること自体が良い・悪いといったことを論じているわけではなく、あくまで現象を分析した研究です。
現実問題としては権利関係の議論を巻き起こす火種になるところはありますが、そうした点については今回は触れていません。