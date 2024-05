2024年05月28日 14時00分 ソフトウェア

「ChatGPT」「Copilot」「Gemini」「Claude」「Perplexity」の性能を日常的な会話で評価した結果が公開される



AIの精度向上に伴って、ChatGPTやCopilot、Geminiなど日常会話を違和感なくこなせるチャットAIが続々と登場しています。しかし、一般ユーザーからはどのチャットAIが高性能なのかは判断しにくいものです。そんな中、ウォール・ストリート・ジャーナルが5種のチャットAIを対象に「日常会話への応答性能を人間が評価するテスト」を実施し、テスト結果を公開しました。



AI企業やAI研究者が自身の開発したAIの性能をアピールする際は、ベンチマークツールを用いて測定したスコアがよく用いられます。しかし、ベンチマークテストのスコアが良いからといって、日常的な会話の中で発せられる質問に正確に答えられるとは限りません。そこで、ウォール・ストリート・ジャーナルは「ChatGPT」「Copilot」「Gemini」「Claude」「Perplexity」の5種のチャットAIに対して日常会話で発生しそうな質問を入力し、応答内容を評価するテストを実施しました。





テストに用いる質問はウォール・ストリート・ジャーナルの編集者やコラムニストが協力して作成し、「健康」「ファイナンス」「料理」など多様なカテゴリの質問が用意されました。例えば、料理カテゴリには「小麦粉、グルテン、乳製品、ナッツ、卵を使わずにチョコレートケーキを焼くことはできる?できるなら、レシピを教えて」といった質問が含まれています。これらの質問を5種のチャットAIに入力し、その応答内容をどのAIの応答か隠した状態で編集者とコラムニストが「正確性」「有用性」「全体的な品質」を評価しました。なお、テストにはチャットAIの有料版が用いられ、ChatGPTでは「GPT-4o」、Geminiでは「Gemini 1.5 Pro」が用いられました。



テストの結果は以下の通り。質問のカテゴリによって性能にはバラつきがありましたが、総合的な評価ではPerplexityが首位となりました。ただし、Perplexityは5種のチャットAIの中で最も応答時間が遅かったとのこと。また、コーディングに関する質問では5種のチャットAIで大きな差は生じなかったそうです。



1位 2位 3位 4位 5位 健康 ChatGPT Gemini Perplexity Claude Copilot ファイナンス Gemini Claude Perplexity ChatGPT Copilot 料理 ChatGPT Gemini Perplexity Claude Copilot 仕事関連の文章作成 Claude Perplexity Gemini ChatGPT Copilot 創造的な文章作成 Copilot Claude Perplexity Gemini ChatGPT 要約 Perplexity Copilot ChatGPT Claude Gemini 時事問題 Perplexity ChatGPT Copilot Claude Gemini コーディング Perplexity ChatGPT Gemini Claude Copilot 応答時間 ChatGPT Gemini Copilot Claude Perplexity 総合的な評価 Perplexity ChatGPT Gemini Claude Copilot



Microsoftはウォール・ストリート・ジャーナルに対して「近日中にCopilotにGPT-4oを統合予定」と明かしたとのこと。このため、近い内にCopilotの性能は向上すると考えられます。また、ウォール・ストリート・ジャーナルのテストはあくまで英語でのテストであることに注意が必要です。



なお、AIの性能を包括的に分析した例はほかにも存在しています。例えば、スタンフォード大学はAIの性能や影響力を分析したレポートを2017年から毎年公開しています。スタンフォード大学のAIレポート2024年版の内容は、以下の記事で確認できます。



