Google DeepMindの研究者らが「AlphaEvolve(進化的に改善させることが得意なAIエージェント)」に、戦略ゲームの定番アルゴリズムを二つ与えて「あとは勝手に改良しておいてください」と命じたところ、実験したほぼ全てのゲームで最高性能を叩き出すアルゴリズムが出力されたそうです。
AIの世界では、ポーカーや戦略ゲームで超人的な強さを誇るアルゴリズムが存在します。その改良は長年、研究者の「勘」と「試行錯誤」に頼ってきました。
今回Google DeepMindの研究チームは「アルゴリズムの設計自体を、AIに任せたらどうなるか?」と考えました。
そこで彼らはAlphaEvolveに、ポーカーや戦略ゲームで定番のCFRとPSROという二大アルゴリズムのソースコードを渡し、「勝手に改良せよ」と命じました。
するとAIは、人間が思いつかなかった戦略を生み出しました。
序盤は結論を急がず、不安定な初期データを切り捨てたり、あえて多様な戦略を探索したりして、十分に学習が進んでから最終的な答えをまとめる方式。
これが最先端手法を上回る結果に。
アルゴリズムを考える役割においてAIが極めて強力なツールになってきたことが分かる事例です。