2023年09月20日 12時00分 サイエンス

AIの創造的な思考能力がついに人間の平均を上回ったとの研究結果が報告される



ChatGPTやMidjourneyなどの生成AIの登場により、多くの職業が影響を受けると予想されているほか、AIで生成した絵画が人間の作品を差し置いてコンテストで優勝するなど、創造性の分野でも生成AIの存在感が日増しに高まっています。そんな生成AIと人間が出したアイデアを、AIの回答が混じっているとは知らない人に評価してもらう実験を行ったところ、人間のアイデアよりAIが生成したアイデアの方が創造性のスコアが有意に高かったとの論文が発表されました。



フィンランド・トゥルク大学心理学部のミカ・コイヴィスト氏と、ノルウェー・ベルゲン大学心理社会科学部のシモーネ・グラッシーニ氏は2023年9月14日付の「Scientific Reports」に掲載された研究の中で、人間の被験者256人と3種類のAIにお題を出して、その回答を比較する実験を行いました。





被験者256人の内訳は、女性が108人、男性が145人、その他および性別自認を明らかにしたくない人が3人で、年齢は19~40歳、平均年齢は30.4歳でした。被験者はいずれも英語のネイティブスピーカーとして研究プラットフォーム「Open Science Framework」で募集され、約13分間の協力により被験者には2ポンド(約366円)の報酬が支払われました。



一方、AIはOpenAIのチャットボットである「ChatGPT3.5」と「ChatGPT4」、およびChatGPT3.5をベースとしたAIシステムの「Copy.ai」が用いられました。3つのチャットボットには、異なるセッションにより生成された4つのプロンプトに対する11回のテストが実施され、合計132個の回答が収集されました。AIの回答が少なめなのは、チャットボットには同じ回答を繰り返す傾向があるため、回答数を必要最小限にしたからだとのこと。



実験の内容は、ロープ、箱、鉛筆、ろうそくという4つの日用品について、本来とは異なる代替的な用途をできるだけ多く回答するというもの。回答の独創性は、さまざまな考えを生み出す発散的思考を評価するためのAlternative Uses Test(AUT)という手法により「意味的距離」、つまり回答が本来の用途とどれだけ近いかと、「創造性」の2点で評価されました。意味的距離の採点は分析用の計算手法で、創造性の採点は回答の一部がAIによるものだと知らされていない6人の人間による主観で行われました。





実験結果を集計した結果、AIの独創性スコアの平均点が「意味的距離」と「創造性」の両方で人間の平均点を有意に上回った一方で、最高点は人間の方が高いことがわかりました。



以下は実験結果を表したグラフで、意味的距離の平均点(A)と最高点(B)、創造性の平均点(C)と最高点(D)が示されています。平均点を見ると、意味的距離では0.95対0.91でAIが勝利し、創造性でも2.91対2.47でAIが人間を上回りました。一方の人間の回答はAIに比べてばらつきが大きく、最小スコアはAIよりもはるかに低かったものの、最高スコアは8つある評価項目のうち7つでAIの最高スコアを上回りました。





特にChatGPT4は優秀で、お題ごとの創造性の平均スコアでは鉛筆(C)がやや苦手なことが判明したものの、それ以外では優れた成績を収めました。





今回の研究について、コイヴィスト氏らは「この結果は、最も典型的な創造的思考のテストであるAUTでは、AIが平均的な人間のアイデア生成能力と同等か、あるいはそれを上回ることを示唆しています。チャットボットは概して人間より優れたパフォーマンスを発揮しましたが、最も優秀な人間なら依然としてチャットボットと競争することが可能です。ただし、AI技術は急速に発展しているため、半年後には結果が変わっている可能性があります」と述べました。