ChatGPTの性能低下はホリデーシーズンに休むことを学習したからだという「冬休み仮説」が浮上
2023年12月頃から「ChatGPTが質問に答えてくれない」という現象が複数報告されており、OpenAIが調査を開始する事態に発展しています。新たに、ChatGPTの性能低下は「冬は休むもの」ということをAIが学習しているからではないかという説が浮上しています。
As ChatGPT gets “lazy,” people test “winter break hypothesis” as the cause | Ars Technica
https://arstechnica.com/information-technology/2023/12/is-chatgpt-becoming-lazier-because-its-december-people-run-tests-to-find-out/
ChatGPTの性能が低下しているという報告は2023年12月頃から寄せられるようになりました。具体的には「ChatGPTに質問をしても答えようとしない」「ChatGPTが質問に興味がないような反応を示す」「ChatGPTが『そのタスクは自分で解決できますよね?』と言ってくる」といった現象が発生している模様。ChatGPTの開発元であるOpenAIも「ChatGPTが怠惰になっている」という報告を受けているようで、問題修正に向けて取り組んでいることを明かしています。
we've heard all your feedback about GPT4 getting lazier! we haven't updated the model since Nov 11th, and this certainly isn't intentional. model behavior can be unpredictable, and we're looking into fixing it ????
— ChatGPT (@ChatGPTapp) December 8, 2023
そんな中、AI研究者のロブ・リンチ氏が「GPT-4 Turboに『今は5月』もしくは『今は12月』というシステムプロンプトを与えた場合、『今は12月』というシステムプロンプトを与えた方が応答が有意に短くなる」という実験結果を報告しました。
@ChatGPTapp @OpenAI @tszzl @emollick @voooooogel Wild result. gpt-4-turbo over the API produces (statistically significant) shorter completions when it "thinks" its December vs. when it thinks its May (as determined by the date in the system prompt).
— Rob Lynch (@RobLynch99) December 11, 2023
I took the same exact prompt… pic.twitter.com/mA7sqZUA0r
リンチ氏による検証前からインターネット上には「ChatGPTが『人間がホリデーシーズンに仕事量を減らす』という事実を学習しており、ホリデーシーズンが近づくと反応が悪くなる」という「冬休み仮説」が存在していたのですが、リンチ氏の検証によって冬休み仮説がさらに補強されることとなりました。
OMG, the AI Winter Break Hypothesis may actually be true?
— Ethan Mollick (@emollick) December 11, 2023
There was some idle speculation that GPT-4 might perform worse in December because it "learned" to do less work over the holidays.
Here is a statistically significant test showing that this may be true. LLMs are weird.???? https://t.co/mtCY3lmLFF
一方で、リンチ氏と同様の実験を行ったというAI研究者のイアン・アラーホ氏は「シャピロ–ウィルク検定で実験データが正規分布していないことが確かめられたため、(正規分布を前提としている)t検定を用いて有意差を見いだすことはできない」と指摘し、冬休み仮説を否定しています。
Update: Still can't reproduce at N=240. *However*, discovered a possible reason: LLM responses are *not normally distributed* (at p<0.05 according to Shapiro-Wilk test). Thus, we can't use a t-test to compare means. TLDR: There is no "seasonal affective disorder" of ChatGPT. https://t.co/R3g0Qqn1SW pic.twitter.com/Y40aAfJqWU
— Ian Arawjo (@[email protected]) (@IanArawjo) December 12, 2023
記事作成時点ではOpenAIはChatGPTの性能低下に関する公式見解を示していません。
なお、ChatGPTの性能の変化を巡っては、「数学の問題の正答率が数カ月で98%から2%に悪化した」という研究結果も報告されています。
ChatGPTの知能が急激に低下しているとの研究結果、単純な数学の問題の正答率が数カ月で98%から2%に悪化 - GIGAZINE
・関連記事
AIに「深呼吸しよう」といった人間っぽい言葉をかけると問題の正答率が上昇するという研究結果 - GIGAZINE
AIに「好奇心」を持たせることでパフォーマンスを改善できる - GIGAZINE
生成AIの飛躍的性能アップの秘密「グロッキング」とは? - GIGAZINE
OpenAIが開発している新型AI「Q*(キュースター)」とは一体どのようなものだと推測されているのか? - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by log1o_hf
You can read the machine translated English article The ``winter vacation hypothesis'….