ハーバード研究者などがLLMを創造的にすべく考案した、大喜利データセットでユーモアラスにチューニングする手法『LCoT』

   

ハーバード大学などの研究者らは、お笑いのようにクリエイティブなものをLLMが生成する能力を探求しています。 そして、大喜利データセット『Oogiri-GO(大喜利GO)』を作成し、LLMをユーモアラスにチューニングするアプローチ『CLoT:創造的な思考の飛躍』を検証しています。

本記事では研究を詳しく見ていきます。

--- 重要なお知らせ---

AIスキル人材と企業をつなぐマッチングサービス「AIDB HR」を開始しました!現在、期間限定で、ギフト券が必ずもらえる新規登録キャンペーンも行っています。


------

参照情報

  • タイトル:Let’s Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation
  • 著者:Shanshan Zhong, Zhongzhan Huang, Shanghua Gao, Wushao Wen, Liang Lin, Marinka Zitnik, Pan Zhou
  • 所属:Sea AI Lab, Sun Yat-sen University, Harvard University
  • 論文:https://doi.org/10.48550/arXiv.2312.02439
  • GitHub:https://zhongshsh.github.io/CLoT/

本記事の関連研究LLMなどの生成AIの背後にある思考プロセスは人間とは全く異なるかもしれないことを示す仮説『生成AIのパラドックス』

研究に至る背景

Chain of Thought(CoT)の適用性

大規模言語モデル(LLMs)は、多様なタスクにおいて推論能力を発揮していますが、一方で創造性に関しては依然として不十分だと考えられるケースがあります。一般的な知識に基づく問いに対する答えや、情報の抽出といったタスクに対しては高い精度を示すものの、クリエイティブな思考や新たなアイデアの生成ではそれほど成果が報告されていません。

また、論理的なタスクやステップバイステップの説明を必要とする問題解決において効果がある手法としては、Chain of Thought(CoT)アプローチが有名です。しかしCoTは、クリエイティビティを必要とする領域、特にユーモアのような創造的なタスクに対しては、効果があまり確認されていません。

Creative Leap-of-Thought (CLoT)の探究

上記の背景から、複数機関の研究者たちは、LLMの創造性を伸ばすアプローチに関心を寄せています。

そして今回、創造的なタスクの一つであるユーモア生成を通して、思考を飛躍させる手法『Creative Leap-of-Thought(CLoT)』を探究しています。

CLoTは、従来のLLMをより柔軟に思考させることを目指しています。モデルに面白く、予期せぬ回答を生成させることで、人間の創造的な思考を模倣しようと試みています。

下の図は、CoTとLoTの違いを視覚的に表現しています。「O」は思考を、「→」は思考間の接続を表し、CoTは段階的な思考プロセスを、LoTは直感的かつ創造的な飛躍を意味しています。

本記事の関連研究「心の理論」においてGPT-3は人間の3歳、GPT-4は人間の7歳(基本の概念を理解しているレベル)に相当するとの研究報告

CLoTのアプローチ

1. 大喜利データセットの作成

研究者らはまず、「Oogiri-GO」と呼ばれる大喜利のデータセットを形成しました。LLMにユーモア(の区別や生成)を訓練させるための、思考を飛躍させる指向性のチューニングデータに変換されるものです。

「Oogiri-GO」データセットには、Image to Text (I2T)、Text to Text (T2T)、そしてImage & Text to Text (IT2T)という3つのカテゴリがあります。
各言語でのデータ量が下の表にまとめられています。注目すべきは、IT2Tカテゴリにおいては、英語版のデータは提供されていない点です。これは文化的な違いによるものと考えられます。






また下の図は、大喜利の3つの異なるタイプを例示しており、画像とテキスト、テキストのみ、またはその組み合わせからユーモアある回答を生成するというタスクを示しています。

2. LLMのチューニング

次に、研究者はLLMがより創造的な思考を飛躍するようにチューニングを行います。関連性のない概念の間を平行に探索し、高品質なデータを選択してトレーニングに使用します。

下の図は、CLoTの二段階のアプローチを示しています。最初のステージは「Associable Instruction Tuning」、次のステージは「Explorative Self-refinement」です。

CLoTの最初のステージでは、モデルがテンプレート設計と指示チューニング通して調整されます。そして次のステージでは、モデルが関連付けと自己精練を通じて、新しいデータに基づいてさらに調整されます。

LoTの指示テンプレートは下の図で示されています。ユーザーがタスクに対するプロンプトを入力し、それに対してAIがタスク固有の応答を生成する構造を持っています。オプションとして画像や条件が含まれます。

下記は指示テンプレートの詳細で、生成、選択、ランキングの指示を変化させる方法を示しています。a)はオリジナルの指示、b)は条件を加えた指示、c)とd)は選択とランキングのための関連付け判別指示です。

3. ユーモアの生成

上記のステップを経てカスタマイズされたLLMが、お題に対応するユーモアを生成します。

なお大喜利だけでなく、「cloud guessing game」や「divergent association task」などのタスクにも対応するように設計されています。

下の図は、大喜利で、従来の視覚言語モデルとCLoTを適用したモデルを比較しています。左側は、指示に従ってユーモアを生成する様子を示し、右側はモデルが生成したユーモアの例を英語(EN)、日本語(JP)、中国語(CN)で示しています。

本記事の関連研究GPTが「心の理論」をもつかどうかはプロンプト次第

実験と結果

CLoTの適用モデル

実験では、

当サイトの利用にはAIDBのアカウントが必要です。
また記事の購読には、アカウント作成後の決済が必要です。



※ログイン/初回登録後、下記ボタンを押してください。

AIDBとは
プレミアム会員(記事の購読)について




■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






PAGE TOP