メモ

AIと弁護士で法的契約書のレビュー対決をした結果とは?


文章生成や文章の要約などを高度に行えるChatGPTがロースクール生用の試験で合格点を獲得したり、大規模言語モデル(LLM)のGPT-3をベースにしたAI弁護士に法定で弁論させる計画が発表されたりと、司法の現場でも生成AIが力を発揮できる可能性が指摘されています。ニュージーランドでビジネス法務に関する業務を行うOnitが、法的契約書における問題の洗い出しや間違いの指摘などを含むレビューについて、LLMと従来の担当者との比較を実施した論文を公開しています。

[2401.16212] Better Call GPT, Comparing Large Language Models Against Lawyers
https://arxiv.org/abs/2401.16212


論文では、外部委託されて経験の浅い弁護士に任されることも多い法的契約書の確認作業について、「LLMと若手の弁護士では、契約における法的問題の判断と特定においてどちらが優れているか?」「LLMと若手の弁護士では、どちらが早く契約書のレビューを完了できるか?」「LLMと若手の弁護士では、どちらが安価に契約書をレビューできるか?」という3点に焦点を当てています。

研究ではまず、実際の法的合意に基づいた「調達契約」の契約書を、機密性を保つ為に匿名化した上で、10件用意しました。調達契約とは主に入札にかかわる案件で、法律実務家によって検討されることが多いため選ばれています。同じくらい扱われることが多い秘密保持契約(NDA)は、一般的に簡潔な形式であるため、分析から意図的に除外されています。


また、契約の管轄範囲は、法定法とコモン・ローの組みあわせに基づくアメリカと、コモン・ローに基づくニュージーランドの間でバランスをとった形にしています。これは、調査結果がさまざまな法制度間で関連性を持つことを保証し、調査の有用性と適用可能性を高めるためのアプローチです。

契約書を弁護士およびLLMにレビューさせた結果を、上級弁護士の定めた正しいデータと比較し、どれくらい一致するかをF値で評価しました。

「法的問題の判断力」に関する結果が以下の表で、表の赤枠で示した「F-score」(F値)が高いほど、レビューの精度が高いという評価です。最も精度が高いのは「LPO(法務アウトソーシング)」で、一般的に契約書のレビューを専門業務のひとつとしているため、高く安定したレビューを可能にしています。LPOとほぼ並んで高いスコアを記録したのが2023年11月に発表されたLLMの「GPT4-1106」で、「Junior(若手弁護士)」よりも高い精度でレビューを成功させました。


さらに、以下の表は「法的問題の特定」に関するパフォーマンスですが、ここでは最上位のLPOに次いで2023年9月にリリースされたLLM「GPT4-32k(32K版)」が高いスコアを記録。その次がOpenAIの競合企業であるAnthropicの「Claude 2.1」、判断力で高スコアを出したGPT4-1106が続き、若手弁護士はその次の第5位となりました。


次に、法的契約書のレビューにかかる時間が比較されました。論文では、契約書1件あたりに平均してかかる時間が上級弁護士で約43分、若手弁護士で約56分、LPOは約201分と記録されました。一方で、GPT4-1106が4.7分、GPT4-32kが2.11分、GPT3.5は1.44分、Claude 2.1は約2.05分と、時間効率の点ではLLMが大幅に優れていると論文では結論付けています。


最後に、以下は契約書1件あたりにかかる平均コストを示した表です。弁護士に頼ると約75ドル(約1万円)、LPOは36.85ドル(約5400円)ですが、LLMの場合はGPT4の32K版が1.24ドル(約180円)である以外は1ドルを大幅に下回っています。コスト効率についても、単純に比較する場合はLLMの方が圧倒的に低くなります。


論文では、LLMが弁護士やLPOと比較して圧倒的に素早く安価でありながら、同等なパフォーマンスを行えるとの調査結果となりました。ただし、LLMが契約書の問題を特定する能力はモデルに依存しているため、研究を実施した時点では、「法的タスクに適切なモデルを選択する」というプロセスが重要な意味を持っており、ある程度専門的な知識を持った人がLLMを扱う必要があります。

論文では、「今回の調査結果が法律業界に及ぼす影響は、深く、多面的です」と述べています。少なくとも契約書のレビューという業務については、若手弁護士やLPOにLLMが取って代わる可能性があり、有望な弁護士がより複雑な業務に早い段階で進むことができるかもしれません。また、LLMは大幅な効率の向上とコスト削減をもたらすため、早期に導入した企業は「大きな競争力を獲得し、おそらく法律分野での軍拡競争を引き起こす可能性があります」と結論付けています。

この記事のタイトルとURLをコピーする

・関連記事
司法機関がAIをどのように用いるべきかを示すガイドラインが登場 - GIGAZINE

ChatGPTがでっちあげた存在しない過去の判例をそのまま採用した弁護士に5000ドルの支払いが命じられる - GIGAZINE

ChatGPTがロースクールの試験で合格点を獲得、ただし優秀な生徒にはなれない様子 - GIGAZINE

GPT-3ベースのAI弁護士が最高裁判所で弁論する予定 - GIGAZINE

対話型チャットAIのベンチマーク番付で1位はGPT-4ベースのChatGPTで2位はClaude-v1、GoogleのPaLM 2もトップ10にランクイン - GIGAZINE

in メモ, Posted by log1e_dh

You can read the machine translated English article here.