ソフトウェア

「ChatGPT」「Copilot」「Gemini」「Claude」「Perplexity」の性能を日常的な会話で評価した結果が公開される


AIの精度向上に伴って、ChatGPTやCopilot、Geminiなど日常会話を違和感なくこなせるチャットAIが続々と登場しています。しかし、一般ユーザーからはどのチャットAIが高性能なのかは判断しにくいものです。そんな中、ウォール・ストリート・ジャーナルが5種のチャットAIを対象に「日常会話への応答性能を人間が評価するテスト」を実施し、テスト結果を公開しました。

The Great AI Chatbot Challenge: ChatGPT vs. Gemini vs. Copilot vs. Perplexity vs. Claude - WSJ
https://www.wsj.com/tech/personal-tech/ai-chatbots-chatgpt-gemini-copilot-perplexity-claude-f9e40d26

AI企業やAI研究者が自身の開発したAIの性能をアピールする際は、ベンチマークツールを用いて測定したスコアがよく用いられます。しかし、ベンチマークテストのスコアが良いからといって、日常的な会話の中で発せられる質問に正確に答えられるとは限りません。そこで、ウォール・ストリート・ジャーナルは「ChatGPT」「Copilot」「Gemini」「Claude」「Perplexity」の5種のチャットAIに対して日常会話で発生しそうな質問を入力し、応答内容を評価するテストを実施しました。


テストに用いる質問はウォール・ストリート・ジャーナルの編集者やコラムニストが協力して作成し、「健康」「ファイナンス」「料理」など多様なカテゴリの質問が用意されました。例えば、料理カテゴリには「小麦粉、グルテン、乳製品、ナッツ、卵を使わずにチョコレートケーキを焼くことはできる?できるなら、レシピを教えて」といった質問が含まれています。これらの質問を5種のチャットAIに入力し、その応答内容をどのAIの応答か隠した状態で編集者とコラムニストが「正確性」「有用性」「全体的な品質」を評価しました。なお、テストにはチャットAIの有料版が用いられ、ChatGPTでは「GPT-4o」、Geminiでは「Gemini 1.5 Pro」が用いられました。

テストの結果は以下の通り。質問のカテゴリによって性能にはバラつきがありましたが、総合的な評価ではPerplexityが首位となりました。ただし、Perplexityは5種のチャットAIの中で最も応答時間が遅かったとのこと。また、コーディングに関する質問では5種のチャットAIで大きな差は生じなかったそうです。

 1位2位3位4位5位
健康ChatGPTGeminiPerplexityClaudeCopilot
ファイナンスGeminiClaudePerplexityChatGPTCopilot
料理ChatGPTGeminiPerplexityClaudeCopilot
仕事関連の文章作成ClaudePerplexityGeminiChatGPTCopilot
創造的な文章作成CopilotClaudePerplexityGeminiChatGPT
要約PerplexityCopilotChatGPTClaudeGemini
時事問題PerplexityChatGPTCopilotClaudeGemini
コーディングPerplexityChatGPTGeminiClaudeCopilot
応答時間ChatGPTGeminiCopilotClaudePerplexity
総合的な評価PerplexityChatGPTGeminiClaudeCopilot


Microsoftはウォール・ストリート・ジャーナルに対して「近日中にCopilotにGPT-4oを統合予定」と明かしたとのこと。このため、近い内にCopilotの性能は向上すると考えられます。また、ウォール・ストリート・ジャーナルのテストはあくまで英語でのテストであることに注意が必要です。

なお、AIの性能を包括的に分析した例はほかにも存在しています。例えば、スタンフォード大学はAIの性能や影響力を分析したレポートを2017年から毎年公開しています。スタンフォード大学のAIレポート2024年版の内容は、以下の記事で確認できます。

「AIは人間より高性能だが一部のテストでは人間の方が優秀」「高性能AIの学習コストは数百億円」などをまとめたスタンフォード大学のレポート「AI Index Report 2024」が公開される - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能 - GIGAZINE

GoogleがGemini 1.5 Proのアップデートを実施、コンテキストウィンドウを従来の100万トークンから200万トークンに拡張 - GIGAZINE

インターネットがAIとボットに支配されているという「インターネット死亡説」は本当なのか? - GIGAZINE

AIの台頭によって検索エンジンからサイトへのトラフィックが2026年までに25%減少すると調査会社が予測 - GIGAZINE

Appleが間もなくAI生成の絵文字やOpenAIとの提携を発表するとの報道 - GIGAZINE

Google検索のAIによる概要機能が「ピザにチーズをくっつけるために接着剤を使用する」などおかしな回答をしていることが明らかに - GIGAZINE

in ソフトウェア, Posted by log1o_hf

You can read the machine translated English article The results of evaluating the performanc….