AIの知能が急激に低下してしまう「ドリフト」問題はなぜ発生するのか?



OpenAIのChatGPTなどのチャットAIは、医師免許試験の合格や驚異的な精度で数学を解くことができることが報告されています。しかし、2023年3月から6月の間に、ChatGPTが簡単な数学を解く精度などが急激に低下していることが報告されています。このようなAIの知能低下は「ドリフト」と呼ばれています。



アメリカ・スタンフォード大学の研究チームが行った調査によると、研究チームは、2023年3月と6月の2回に分けて、OpenAIの大規模言語モデル「GPT-3.5」と「GPT-4」に「数学の問題」「コード生成」「視覚的推論」「センシティブな質問」の4つのタスクを与え、その回答の素早さや正確さを分析しました。調査の結果、「17077は素数ですか」といった単純な数学の問題に対するGPT-4の回答の精度が2023年3月から6月にかけて97.6%から2.4%に急落していることが判明しました。



研究チームによって示された、AIの知能低下は「ドリフト」と呼ばれています。スタンフォード大学とカリフォルニア大学バークレー校の研究者によると、「AIにおけるドリフト問題は、非常に複雑なAIモデルの一部を改善しようとすると、モデルの他の部分のパフォーマンスが低下する問題」とのこと。



スタンフォード大学でコンピューターサイエンスの研究を行うジェームズ・ゾウ氏は「AIモデルを微調整して特定の方向に強化すると、別の領域では後退してしまうリスクがあります」と述べ、「一貫してAIモデルを改善させ続けることは非常に困難です」と語っています。





また、ゾウ氏は「私たちはGPT-4などのAIモデルでドリフト問題がいつか発生するのではないかと疑っていましたが、これほどまでに早くドリフト問題が発生したことに対して非常に驚きました」と報告しています。



海外メディアのCryptopolitanは、AIにおけるドリフト問題について「この問題は、プロンプトエンジニアリングと呼ばれる急成長中のトレンドと絡み合っている可能性があります」と推測しています。Cryptopolitanによると、プロンプトエンジニアリングは、ユーザーがプロンプトを作成し、AIから特定の反応を引き出すという概念ですが、「GPT-4における数学的能力の低下は、プロンプトエンジニアリングに対抗するために取られた不慮の結果の可能性があります」と述べています。





OpenAIは「新しいAIモデルをリリースする際に、私たちは新モデルを全体的に賢くすることを最優先に考えています。また、私たちは新しいAIモデルのバージョンが、包括的なタスクの改善につながっていることを確認するためにさまざまな調査や研究を行っています。しかし、私たちの評価方法は完璧ではないため、常に改善を続けています」と述べています。



ゾウ氏はAIにおけるドリフト問題について「重要なのは、知能低下に伴ってテクノロジーを放棄することではなく、これまで以上にAIを綿密に監視することです」と語っています。研究チームは、ChatGPTなどのAIモデルに対して、何千もの質問を与えることで体系的なテストを続け、時間の経過に伴うパフォーマンスの変化の分析を行うことを明らかにしています。