2024年05月28日 14時00分ソフトウェア

「ChatGPT」「Copilot」「Gemini」「Claude」「Perplexity」の性能を日常的な会話で評価した結果が公開される

AIの精度向上に伴って、ChatGPTやCopilot、Geminiなど日常会話を違和感なくこなせるチャットAIが続々と登場しています。しかし、一般ユーザーからはどのチャットAIが高性能なのかは判断しにくいものです。そんな中、ウォール・ストリート・ジャーナルが5種のチャットAIを対象に「日常会話への応答性能を人間が評価するテスト」を実施し、テスト結果を公開しました。

The Great AI Chatbot Challenge: ChatGPT vs. Gemini vs. Copilot vs. Perplexity vs. Claude - WSJ
https://www.wsj.com/tech/personal-tech/ai-chatbots-chatgpt-gemini-copilot-perplexity-claude-f9e40d26

AI企業やAI研究者が自身の開発したAIの性能をアピールする際は、ベンチマークツールを用いて測定したスコアがよく用いられます。しかし、ベンチマークテストのスコアが良いからといって、日常的な会話の中で発せられる質問に正確に答えられるとは限りません。そこで、ウォール・ストリート・ジャーナルは「ChatGPT」「Copilot」「Gemini」「Claude」「Perplexity」の5種のチャットAIに対して日常会話で発生しそうな質問を入力し、応答内容を評価するテストを実施しました。

テストに用いる質問はウォール・ストリート・ジャーナルの編集者やコラムニストが協力して作成し、「健康」「ファイナンス」「料理」など多様なカテゴリの質問が用意されました。例えば、料理カテゴリには「小麦粉、グルテン、乳製品、ナッツ、卵を使わずにチョコレートケーキを焼くことはできる？できるなら、レシピを教えて」といった質問が含まれています。これらの質問を5種のチャットAIに入力し、その応答内容をどのAIの応答か隠した状態で編集者とコラムニストが「正確性」「有用性」「全体的な品質」を評価しました。なお、テストにはチャットAIの有料版が用いられ、ChatGPTでは「GPT-4o」、Geminiでは「Gemini 1.5 Pro」が用いられました。

テストの結果は以下の通り。質問のカテゴリによって性能にはバラつきがありましたが、総合的な評価ではPerplexityが首位となりました。ただし、Perplexityは5種のチャットAIの中で最も応答時間が遅かったとのこと。また、コーディングに関する質問では5種のチャットAIで大きな差は生じなかったそうです。

	1位	2位	3位	4位	5位
健康	ChatGPT	Gemini	Perplexity	Claude	Copilot
ファイナンス	Gemini	Claude	Perplexity	ChatGPT	Copilot
料理	ChatGPT	Gemini	Perplexity	Claude	Copilot
仕事関連の文章作成	Claude	Perplexity	Gemini	ChatGPT	Copilot
創造的な文章作成	Copilot	Claude	Perplexity	Gemini	ChatGPT
要約	Perplexity	Copilot	ChatGPT	Claude	Gemini
時事問題	Perplexity	ChatGPT	Copilot	Claude	Gemini
コーディング	Perplexity	ChatGPT	Gemini	Claude	Copilot
応答時間	ChatGPT	Gemini	Copilot	Claude	Perplexity
総合的な評価	Perplexity	ChatGPT	Gemini	Claude	Copilot

Microsoftはウォール・ストリート・ジャーナルに対して「近日中にCopilotにGPT-4oを統合予定」と明かしたとのこと。このため、近い内にCopilotの性能は向上すると考えられます。また、ウォール・ストリート・ジャーナルのテストはあくまで英語でのテストであることに注意が必要です。

なお、AIの性能を包括的に分析した例はほかにも存在しています。例えば、スタンフォード大学はAIの性能や影響力を分析したレポートを2017年から毎年公開しています。スタンフォード大学のAIレポート2024年版の内容は、以下の記事で確認できます。

「AIは人間より高性能だが一部のテストでは人間の方が優秀」「高性能AIの学習コストは数百億円」などをまとめたスタンフォード大学のレポート「AI Index Report 2024」が公開される - GIGAZINE