本記事では、人間が道徳的な判断を行う際に助けとなる新たなAIを紹介します。その名も「CLARIFY DELPHI」。このシステムは、社会的または道徳的な状況において、より詳細なコンテキストを引き出すための質問を学習することができます。例えば、「友人に嘘をつく」は一般的には間違っているとされますが、その友人の命を守るためであれば道徳的に許容されるかもしれません。このような状況の詳細を引き出すための質問をAIが自動的に生成することが、CLARIFY DELPHIの目指すところです。
参照論文情報
- タイトル:ClarifyDelphi: Reinforced Clarification Questions with Defeasibility Rewards for Social and Moral Situations
- 著者:Valentina Pyatkin, Jena D. Hwang, Vivek Srikumar, Ximing Lu, Liwei Jiang, Yejin Choi, Chandra Bhagavatula
- URL:https://doi.org/10.48550/arXiv.2212.10409
CLARIFY DELPHIとは?
CLARIFY DELPHIの基本
CLARIFY DELPHIは、人間の道徳的な判断をAIが学習し、模倣するための革新的なシステムです。このシステムの目的は、特定の社会的または道徳的な状況について、その状況の詳細を引き出すための質問を自動的に生成することです。この質問生成プロセスは、強化学習のフレームワークを用いて行われ、質問の答えが道徳的な判断を最大限に分岐させるように最適化されます。これにより、AIは人間の道徳的な判断をより深く理解し、それに基づいた行動をとることが可能になります。
質問生成のプロセス
CLARIFY DELPHIの質問生成プロセスは、強化学習の技術を活用しています。このプロセスは、まず初めに特定の状況について質問を生成します。この質問は、その状況の詳細を引き出すためのもので、例えば「その人があなたの友人ですか?」や「その行為は法的に許されていますか?」などが考えられます。
生成された質問に対する仮想的な答えを「想像」し、その答えが道徳的な判断をどの程度分岐させるかを評価します。この評価は、質問の答えが道徳的な判断を明確にする度合いを測定するもので、高い評価を得た質問はより有用とされます。
この評価に基づいて、質問生成プロセスは強化学習を通じて最適化されます。つまり、高い評価を得た質問は報酬として扱われ、AIは報酬を最大化するように質問を生成する方法を学習します。このプロセスを通じて、CLARIFY DELPHIは道徳的な判断を最大限に分岐させる質問を生成する能力を獲得します。
下の図は、CLARIFY DELPHIによる質問生成のデモンストレーションです。
また記事の購読には、アカウント作成後の決済が必要です。
※ログイン/初回登録後、下記ボタンを押してください。
AIDBとは
プレミアム会員(記事の購読)について
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。