民事裁判をLLMで模倣 シミュレートを経てLLMの法律能力が強化される

   
★AIDB会員限定Discordを開設いたしました! ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします!↓

最終更新日:2024/08/21

本記事では、LLMを用いた裁判シミュレーションシステムの研究を紹介します。裁判官や弁護士などの役割をLLMでシミュレートし、実際の裁判を模倣するシステムです。シミュレーションを繰り返す中でLLMが法律に強くなるといった実験結果が得られています。


AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

参照論文情報

  • タイトル:AgentCourt: Simulating Court with Adversarial Evolvable Lawyer Agents
  • 著者:Guhong Chen, Liyang Fan, Zihan Gong, Nan Xie, Zixuan Li, Ziqiang Liu, Chengming Li, Qiang Qu, Shiwen Ni, Min Yang
  • 所属:Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Southern University of Science and Technology, Shenzhen University, University of Chinese Academy of Sciences, Sun Yat-Sen University, Shenzhen MSU-BIT University

背景

法律業界においてもLLMの活用は注目されています。自動文書生成や法律相談など、活用範囲は広いと考えられています。しかし、法廷の再現にはまだ踏み込まれていません。

そこで今回、AgentCourtというLLMベースのシミュレーションシステムが開発されました。裁判官、弁護士、原告、被告など複数の役割をLLMで演じ、民事裁判を仮想的に行うものです。

シミュレーションを繰り返す中で、LLMベースのエージェントが法律に対する推論スキルを伸ばすことができる特徴があります。例えば弁護士エージェントの専門知識や論理的思考能力が著しく向上したことが確認されました。特殊なアノテーションは必要でないとのことです。

マルチエージェントシステムの研究では通常、情報交換に焦点が当てられがちです。一方、AgentCourtでは、直接的な利害対立を持つエージェントが作成され、対立的なやりとりを通して自己進化が実現しています。

以下で詳しく紹介します。

下の画像はAgentCourtのシミュレーションの様子を示しており、左側は法廷シーンの再現、右側は書記官の発言を表示しています。






裁判所のシミュレーション

先行研究を参考に、シミュレーション環境が設計されました。なお、裁判所だけでなく法律事務所もシミュレートされましたが、法律事務所に関するデータは不足しているので主に裁判所のみで実験されました。

エージェントの設定

実際の訴訟を正確に再現するため、6つの役割が設計されました。

  1. 原告
  2. 被告
  3. 原告側の弁護士
  4. 被告側の弁護士
  5. 裁判官
  6. 書記官

各役割の具体的な機能については、以下で詳しく説明します。

原告・被告エージェント

シミュレーションは事件発生前から始まります。原告と被告のエージェントはランダムに事件に巻き込まれるようプログラムされています。事件に関与すると、両エージェントは自律的に法律事務所に法的支援を求めます。

弁護士エージェント

原告と被告が法律事務所で法的支援を求めると、弁護士エージェントがランダムに原告側弁護士と被告側弁護士として割り当てられます。弁護士エージェントたちはクライアント(原告と被告)とコミュニケーションを取り、事件に関連する情報を収集します。

裁判官エージェント

裁判所では、裁判官が全体のプロセスを監督し、両弁護士の主張を聴取し、適切な質問を行います。最後に、裁判官は各ラウンドの弁護士の主張を要約・評価し、最終判決を下します。

書記官エージェント

書記官エージェントは裁判の開始を告げ、裁判の全過程を記録します。より現実的な裁判環境を作り出し、エージェントの進化を促進するために設計されました。

データ設定と処理

1. 機密訴訟文書へのアクセス

訴訟文書は法的手続きの重要な部分ですが、多くの場合機密性が高く、所有権が制限されているため、アクセスが制限されています。主要文書は通常、裁判所の提出システムや私的記録内に安全に保管されています。しかしオープンなデータでは開発には不十分です。そこで中国裁判文書ネットワークを活用して、10,000件の民事判決のデータセットが収集されました。

2. データセットの構築とプリプロセシング

データセットの品質向上に重点を置いた前処理が行われ、原告の主張と被告の抗弁の両方を含む1,389件の高価値ケースが慎重に選別されました。重複に対処するため、’Case Introduction’セクションのBERT(Bidirectional Encoder Representations from Transformers)による意味ベクトル化とK-meansクラスタリングが採用され、類似文書がグループ化されました。結果として、模擬裁判の訓練とテストに使用される1,000件の代表的な事例が得られました。

3. データ生成と匿名化

ERNIE-Speed-128K APIを利用して、民事判決に合わせて調整された高品質のシミュレーションテキストが生成され、匿名化されました。

以上のプロセスによって1,000件のトレーニングサンプルと50件のテストサンプルからなる厳選されたデータセットが作成されました。

シミュレーションプロセス

1. 事例生成

エージェントが事件に関与すると、法律事務所に法的支援を求め、原告エージェントと被告エージェントに変わります。その後、法律事務所がランダムに弁護士エージェントを割り当て、原告・被告とコミュニケーションを取り、訴状と答弁書を裁判所に提出します。

プロセスを簡素化するため、原告と被告は通信中に関連するすべての情報を詳細に弁護士に提供します。その後、原告と被告は裁判手続きに直接出席しません(一般的にもこの通りです)。

2. 裁判手続き

AgentCourtの裁判手続きは、主に以下のステップで構成されます。

  1. 書記官が裁判開始を宣言する
  2. 原告側弁護士が訴状を読み上げる
  3. 被告側弁護士が答弁書を読み上げる
  4. 裁判官が主要な論点をまとめる
  5. 異議がない場合、証拠提示段階に進む
  6. 原告側が証拠を提示し、被告側が応答する
  7. 被告側が証拠を提示し、原告側が応答する
  8. 自由討論のラウンドが行われる
  9. 裁判官が判決を下す
  10. 書記官が裁判の記録を作成する
  11. 両弁護士が経験をまとめる

このようにしてAgentCourtは実際の裁判手続きを再現します。

エージェントは競い合いながら進化する

裁判シミュレーションで弁護士のスキルを伸ばすため、”対立的進化”という方法が使われています。エージェント同士で競い合いながら能力を高めるアプローチです。アノテーションなどの煩雑な作業が必要でないのが長所とのことです。

裁判後のプロセス

裁判手続きの終了後、両弁護士には以下のタスクが課されます。

  1. 裁判を全体的に振り返ってまとめる
  2. 得た教訓や重要なポイントを経験データベースに保存する
  3. 事件の基本情報(タイトルや背景など)を判例データベースに記録する
  4. 裁判で使われた法律を学び、それを法律コードデータベースに追加する

裁判中の知識活用プロセス

裁判中、各弁護士の応答前に、進行中の対話履歴に基づいて動的にクエリが生成されます。そして経験リポジトリ、判例データベース、法律コードデータベースから関連知識が検索されます。

以下の効果を目指してのプロセスです。

  • 応答の一貫性の向上
  • 論理的整合性の向上
  • 反応時間の短縮
  • 法律のナレッジベースの拡大

つまり、すでに完了した裁判シミュレートの内容を、次の裁判で活用するというアプローチです。

データベースの最適化

3つのデータベースのノイズを軽減するための工夫が施されました。

弁護士エージェントは、意味的類似性に基づいて、データベースから検索されたトップKの経験を評価し、進行中の裁判手続きとの関連性を判断します。

また有益な経験のみがプロンプトに組み込まれ、役立たないと判断された経験は除外されます。

実験

AgentCourtの有効性を検証するため、実験が実施されました。

実験のためのシミュレーションは1,000件の実際の民事事件に基づいて行われました。

法律エージェントの判例データベースが拡大するにつれて、エージェントの能力が向上していきます。自動評価と人手評価の両方が行われ、エージェントの進化の過程がチェックされました。

実験設定

自動評価タスク

エージェントの性能を自動評価するために、LawBenchが使用されました。LawBenchとは、LLMの法律に関する能力を3つの側面(知識の記憶、知識の理解、知識の応用)から正確に評価するよう設計されたベンチマークテストです。このテストに合わせて以下のタスクが選択されました。

  1. 条文の暗唱
  2. 争点の焦点を特定
  3. 問題のトピックを特定
  4. 法律相談に正しく答える

なお、ベースラインにはERNIE-Speed-128Kが採用され、評価対象のモデルには、進化を遂げた2つの法律エージェントが選ばれました。

条文暗記タスクの例。
上から入力プロンプト、進化したエージェントの応答、進化していないエージェントの応答、標準回答

人手評価タスク

人間の専門家によって、以下3つの指標で評価されました。

  1. 頭の回転の速さ
  2. 専門知識
  3. 論理的な一貫性

評価方法

人手評価

二重盲検法を使った評価実験が行われました。二重盲検法とは、評価する側とされる側がどのグループかを知らないまま進める方法です。

62件の民事事件が対象となり、各事件は2回評価され、合計124件の討論記録が作成されました。7年の経験を持つ5人の法律専門家が、それぞれ独立して評価し、最終結果は多数決で決められました。

実験結果

自動評価結果

自動評価の結果、2つの進化したエージェントが4つのタスク全てにおいて優れた性能を示しました。

人手評価結果

人手評価の結果では、AgentCourtで進化したエージェントが3つの評価全てにおいて著しい改善を示しました。中でも、専門知識と論理的厳密性の面で大きな向上が見られました。原告側または被告側のいずれの役割でも、進化したエージェントが進化前のエージェントを上回る性能を示し、進化戦略の有効性が実証されました。

注目すべき点として、人手評価の結果は自動評価の指標と高い一致性を示しました。頭の回転の速さは争点の焦点特定タスクと、専門知識は条文暗唱タスクと、論理的な一貫性は法律相談タスクと、それぞれ正の相関が見られました。

まとめ

本記事では、LLMエージェントを用いた裁判シミュレーションシステムAgentCourtの研究を紹介しました。

システムは民事裁判環境をシミュレートし、このシミュレーションを通して弁護士エージェントの知識や能力が向上することが示されました。

なお、本プロジェクトのデータセットとコードはオープンソース化されています。


■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。






業界/カテゴリー

PAGE TOP