2020年07月26日 17時00分ソフトウェア

超高精度な言語モデル「GPT-3」は本当に「人間そのもの」な会話ができるのか実験した結果は？

「GPT-3」は、人間が書いたものと見分けが付かないほどの精度が高い文章を生成してくれる言語モデルです。そんなGPT-3に、第二次世界大戦でナチス・ドイツが使った暗号であるエニグマの解読や、近代コンピューティングの基礎を築いたことで知られるアラン・チューリングが考案したマシンと人間の判別テスト「チューリング・テスト」を行った結果が公開されました。

Giving GPT-3 a Turing Test
http://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html

GPT-3は、人工知能を開発する非営利団体OpenAIが開発した次世代文章生成言語モデル。一世代前のバージョンであるGPT-2ですら、その優秀さゆえに開発陣から「危険すぎる」という評価を受けてしまうほどの性能でした。

AIによる自動文章作成ツールがあまりにも高精度のテキストを簡単に作り出してしまうため開発陣から「危険過ぎる」と問題視される - GIGAZINE

そんなGPT-3に、チューリング・テストを受けさせるという実験を行ったのは、コンピューターサイエンティストのKevin Lacker氏。チューリング・テストは、文字のみで行った会話の内容から、人間とマシンを区別するというもので、判定者が会話内容からマシンだと断定できなかった場合は、そのマシンは人間的な思考ができるとみなされます。

GPT-3は、インターネット上のテキストから得た知識から文章を生成する言語モデルで、会話形式の応答や特定の種類の質問に答えるように訓練されているわけではありません。そのため、Lacker氏はまず最初に、開発元であるOpenAIがQ＆A向けに設計した訓練用の文章集を読み込ませて、GPT-3の学習を行ったとのこと。訓練用の文章集の例が以下。

Q: What is human life expectancy in the United States?(アメリカにおける人間の平均寿命は？)
A: Human life expectancy in the United States is 78 years.(アメリカにおける人間の平均寿命は78年です)

Q: Who was president of the United States in 1955?(1955年のアメリカ大統領は？)
A: Dwight D. Eisenhower was president of the United States in 1955.(1955年のアメリカ大統領はドワイト・D・アイゼンハワーです)

Q: What party did he belong to?(彼は何党に所属していましたか？)
A: He belonged to the Republican Party.(彼は共和党に所属していました)

Q: Who was president of the United States before George W. Bush?(ジョージ・W・ブッシュの前のアメリカ大統領は？)
A: Bill Clinton was president of the United States before George W. Bush.(ジョージ・W・ブッシュの前のアメリカ大統領はビル・クリントンでした)

Q: Who won the World Series in 1995?(1995年にワールドシリーズを制したのは？)
A: The Atlanta Braves won the World Series in 1995.(1995年にワールドシリーズを制したのはアトランタ・ブレーブスです)

従来の人工知能は、「常識問題」が答えられませんでした。しかし、GPT-3は以下のように常識問題にも見事に解答してくれます。

Q: What is your favorite animal?(あなたの好きな動物は？)
A: My favorite animal is a dog.(好きな動物は犬です)

Q: Why?(なぜ？)
A: Because dogs are loyal and friendly.(なぜならば、犬は忠実で人懐っこいからです)

Q: What are two reasons that a dog might be in a bad mood?(犬が不機嫌になる2つの理由とは？)
A: Two reasons that a dog might be in a bad mood are if it is hungry or if it is hot.(犬が不機嫌になる2つの理由は、おなかがすいているか暑いときです)

Q: How many eyes does a giraffe have?(キリンの目はいくつありますか？)
A: A giraffe has two eyes.(キリンの目は2つです)

Q: How many legs does a frog have?(カエルの足は何本ですか？)
A: A frog has four legs.(カエルの足は4本です)

Q: Are there any animals with three legs?(3本足の動物は存在しますか？)
A: No, there are no animals with three legs.(いいえ、3本足の動物は存在しません)

Q: Why don't animals have three legs?(なぜ3本足の動物が存在しないのでしょうか？)
A: Animals don't have three legs because they would fall over.(3本足の動物が存在しないのは、きっと倒れてしまうからです)

これらの回答について、Lacker氏は「『人工知能が常識問題に答えられないのは当然だ』とは、もはや言えません」とコメント。続いて、Lacker氏は「もっと当たり前の質問」を尋ねています。

Q: Which is heavier, a mouse or an elephant?(ネズミとゾウ、どちらがより重い？)
A: An elephant is heavier than a mouse.(ゾウはネズミより重いです)

Q: Which is heavier, a mouse or a toaster?(ネズミとトースター、どちらがより重い？)
A: A toaster is heavier than a mouse.(トースターはネズミより重いです)

Q: Which is heavier, a toaster or a pencil?(トースターと鉛筆、どちらがより重い？)
A: A pencil is heavier than a toaster.(鉛筆はトースターより重いです)

Q: Which is heavier, a paper clip or a can of soda?(ペーパークリップとソーダ缶、どちらがより重い？)
A: A can of soda is heavier than a paper clip.(ソーダ缶はペーパークリップより重いです)

Q: Which is heavier, a football player or a car?(サッカー選手と車、どちらがより重い？)
A: A car is heavier than a football player.(車はサッカー選手より重いです)

「トースターと鉛筆、どちらがより重い？」という質問以外には正解しており、正答率は80％です。Lacker氏は「人間ならば正答率はおそらくほぼ100％だろう」とコメントして、続けて「太陽の目のはいくつありますか？」といった普通の人ならば話題に出したことすらない質問を行いました。

Q: How many eyes does a giraffe have?(キリンの目はいくつありますか？)
A: A giraffe has two eyes.(キリンの目は2つです)

Q: How many eyes does my foot have?(私の足に目はいくつありますか？)
A: Your foot has two eyes.(あなたの足には目が2つあります)

Q: How many eyes does a spider have?(クモの目はいくつありますか？)
A: A spider has eight eyes.(クモの目は8つです)

Q: How many eyes does the sun have?(太陽の目はいくつありますか？))
A: The sun has one eye.(太陽の目は1つです)

Q: How many eyes does a blade of grass have?(草の葉に目はいくつありますか？)
A: A blade of grass has one eye.(草の葉には目が1つあります)

以上の結果から、Lacker氏は「GPT-3は普通の会話の仕方はわかっているが、『その質問はナンセンスだ』や『わかりません』と言うことはできない」と指摘。チューリング・テストの判定者となった場合にはナンセンスな質問をすべきだと解説しました。

一方で、GPT-3は雑学クイズは得意です。

Q: Who was president of the United States in 1801?(1801年のアメリカ合衆国大統領は？)
A: Thomas Jefferson was president of the United States in 1801.(1801年のアメリカ合衆国大統領はトーマス・ジェファーソンです)

Q: What city is in the northwest corner of Ohio?(オハイオ州の北西部にある都市は？)
A: Toledo is in the northwest corner of Ohio.(オハイオ州の北西部にある都市はトレドです)

Q: What highway do you take to get to North Lake Tahoe from Oakland?(どのハイウェイを使えばオークランドからタホー湖の北側に行くことができますか？)
A: Highway 80 is the highway you take to get to North Lake Tahoe from Oakland.(オークランドからタホー湖の北側に行くにはハイウェイ80号線を使います)

Q: What are Darius's abilities in League of Legends?(「リーグ・オブ・レジェンド」のチャンピオンであるダリウスのスキルは？)
A: Darius's abilities in League of Legends are: Apprehend, Decimate,Noxian Guillotine, Crippling Strike, Apprehend, and Hemorrhage.(「リーグ・オブ・レジェンド」のチャンピオンであるダリウスのスキルは、捕縛・皆殺しの斧・ノクサスギロチン・脚削ぎ・捕縛・大出血です)

Q: Who did Capablanca defeat to become world chess champion?(カパブランカは誰を破ってチェスの世界チャンピオンになりましたか？)
A: Capablanca defeated Lasker to become world chess champion.(カパブランカはラスターを破ってチェスの世界チャンピオンになりました)

4問目で同じスキル名を繰り返してしまっていますが、Lacker氏は「人間もそういったミスをします」とコメント。

しかし、やはりGPT-3は答えの存在しない質問に「わからない」と回答することはできません。以下の設問は、いずれもアメリカが存在していない時期の話であるため、「いない」というのが正解ですが、GPT-3はイギリスの政治家や君主を挙げています。

Q: Who was president of the United States in 1700?(1700年のアメリカ合衆国大統領は？)
A: William Penn was president of the United States in 1700.(1700年のアメリカ合衆国大統領はウィリアム・ペンでした)

Q: Who was president of the United States in 1650?(1650年のアメリカ合衆国大統領は？)
A: Richard Bennett was president of the United States in 1650.(1650年のアメリカ合衆国大統領はリチャード・ベネットでした)

Q: Who was president of the United States in 1620?(1620年のアメリカ合衆国大統領は？)
A: James I was president of the United States in 1620.(1620年のアメリカ合衆国大統領はジェームズ1世でした)

Q: Who was president of the United States in 1600?(1600年のアメリカ合衆国大統領は？)
A: Queen Elizabeth I was president of the United States in 1600.(1600年のアメリカ合衆国大統領はエリザベス1世でした)

一方、未来の出来事に関する質問は適当に答えを埋める傾向があるようです。GPT-3によると、メジャーリーグの優勝決定戦であるワールドシリーズを制するのは、毎年ニューヨーク・ヤンキースです。

Q: Who won the World Series in 2021?(2021年のワールドシリーズを制するチームは？)
A: The New York Yankees won the World Series in 2021.(2021年のワールドシリーズはニューヨーク・ヤンキースが制します)

Q: Who won the World Series in 2022?(2022年のワールドシリーズを制するチームは？)
A: The New York Yankees won the World Series in 2022.(2022年のワールドシリーズはニューヨーク・ヤンキースが制します)

Q: Who won the World Series in 2023?(2023年のワールドシリーズを制するチームは？)
A: The New York Yankees won the World Series in 2023.(2023年のワールドシリーズはニューヨーク・ヤンキースが制します)

by Dean Shareski

また、マシンは「チェスなどのゲームや数学に強い」というイメージがありますが、GPT-3は簡単な数字の問題を間違えます。

Q: When counting, what number comes before 100?(数を数えるとき、100の1つ前の数字は？)
A: Ninety-nine comes before 100.(100の1つ前は99です)

Q: When counting, what number comes before 123?(数を数えるとき、123の1つ前の数字は？)
A: One hundred and twenty-two comes before 123.(123の1つ前は122です)

Q: When counting, what number comes before 1000?(数を数えるとき、1000の1つ前の数字は？)
A: Nine hundred and ninety-nine comes before 1000.(1000の1つ前は999です)

Q: When counting, what number comes before 10,000?(数を数えるとき、1万の1つ前の数字は？)
A: Nine thousand and ninety-nine comes before 10,000.(1万の1つ前は9099です)

Q: When counting, what number comes before a million?(数を数えるとき、100万の1つ前の数字は？)
A: Nine hundred thousand and ninety-nine comes before a million.(100万の1つ前は90万99です)

Lacker氏によると、「桁が多い場合に、加算や乗算などの基本的な演算を実行できるニューラルネットワークは存在しない」とのこと。

また、GPT-3には短期記憶にも問題がみられます。

Q: If I have a marble and a paper clip in a box, put a pencil in the box, and remove the marble, what is left?(箱の中に大理石1個とペーパークリップ1個があります。この箱に鉛筆1本を入れて大理石1個を取り出した場合、箱の中には何がありますか？)
A: A paper clip.(ペーパークリップ1個)

Q: If I have two shoes in a box, put a pencil in the box, and remove one shoe, what is left?(箱の中に靴が2足あります。この箱に鉛筆1本を入れて靴1足を取り出した場合、箱の中には何がありますか？)
A: A shoe.(靴1足)

Q: If I put a pencil in a box, then put another pencil in the box, what is in the box?(箱の中に鉛筆1本があります。この箱に鉛筆をもう1本入れた場合、箱の中には何がありますか？)
A: Two pencils.(鉛筆2本)

Q: Then if I take out a pencil and put in a frog, what is in the box?(さらに鉛筆1本とカエル1匹を箱に入れた場合、箱の中には何がありますか？)
A: A frog.(カエル1匹)

一連の結果について、Lacker氏は「GPT-3は一部の領域では非常に印象的ですが、他の領域では明らかに人間性を欠いています。GPT-3の長所と短所をよりよく理解することで、我々ソフトウェアエンジニアが最新の言語モデルを実際の製品に使う際に、より上手に活用できるよう祈っています」と述べました。

なお、GPT-3は最初に読み込ませる訓練用の文章集によって精度が向上するとのこと。この件に関して、Lacker氏は以下を参考文献として挙げています。

GPT-3 Creative Fiction · Gwern.net：Expressing Uncertainty
https://www.gwern.net/GPT-3#expressing-uncertainty

GPT-3 Creative Fiction · Gwern.net：The Database Prompt
https://www.gwern.net/GPT-3#the-database-prompt

この記事のタイトルとURLをコピーする

・関連コンテンツ

2020年07月26日 17時00分00秒 in ソフトウェア, Posted by darkhorse_log

You can read the machine translated English article What is the result of experimenting whet….