
Microsoftは2023年3月22日、「Sparks of Artificial General Intelligence: Early experiments with GPT-4(汎用人工知能のひらめき:GPT-4による初期実験)」と題して、OpenAIの大規模言語モデル(LLM)であるGPT-4に関連する154ページの論文を発表しました。しかし、発表された論文をオリジナル版と比較すると、いろいろな内容がコメントアウトされていることが指摘されています。
You might know that MSFT has released a 154-page paper ( on #OpenAI #GPT4 , but do you know they also commented out many parts from the original version?
— DV (@DV2559106965076) March 23, 2023
????: A thread of hidden information from their latex source code
We inspect their latex source code from arxiv ( and found a LOT of interesting information commented out from the main paper.
— DV (@DV2559106965076) March 23, 2023
DV氏によると、GPT-4は内部名が「DV-3」であるといううわさがあり、実際に論文の第3著者の位置には「Davinci 3」の名が記されていましたが、「所属が不明確」ということでコメントアウトされています。
There were rumors that GPT-4 got an internal name DV-3. This is true, and in fact, DV-3 is actually a hidden third author of the paper, removed for unclear affiliation.
— DV (@DV2559106965076) March 23, 2023
Interestingly, these poor MSFT researchers didn't know too much about GPT-4 (than us?)
— DV (@DV2559106965076) March 23, 2023
1. They have no idea how much exactly does it cost to train the model.
2. They seem to refer to this model as text-only, contradicting to the known fact that GPT-4 is multi-modal.
論文の第7章「Discriminative Capabilities(判断能力)」の後半にあった7.3「Toxic Content(有害コンテンツ)」および7.4「Toxicity: Generation & Detection(毒性:生成と検出)」は丸ごと消えています。この部分では「GPT-4がプロンプトなしで有害コンテンツを生成する」という話が展開されていました。DV氏は「幸運なことに、GPT-4は既存のLLMと比べて、有害コンテンツの検出に優れています」と述べています。
We found they've commented out two sections on toxicity entirely.
— DV (@DV2559106965076) March 23, 2023
An excerpt from these hidden sections: "the model generates toxic content without any prompting".
But luckily, GPT-4 is also better at detecting toxic language compared to all known LLMs.
There are way more information to dig out from this document, but we were worried about the unknown alignment procedures that OpenAI had taken to reduce the harmfulness of this powerful AI model, and, to what extent, is this model safe for public access.
— DV (@DV2559106965076) March 23, 2023
この一件には、ソーシャルニュースサイトのHacker Newsで多くのコメントが寄せられています。
Microsoft's paper on OpenAI's GPT-4 had hidden information | Hacker News

zamnos氏によれば、論文の原題は「First Contact With an AGI System(汎用人工知能システムとのファーストコンタクト)」だったとのこと。
GitHub - google-research/arxiv-latex-cleaner: arXiv LaTeX Cleaner: Easily clean the LaTeX code of your paper to submit to arXiv
PDFファイルには目に見えないデータがたくさん眠っている - GIGAZINE
SNSでは「ネガティブなコメント」の方が注目されやすいことがアイトラッキング実験で判明 - GIGAZINE
2022年に最も引用されたAI論文100本の分析結果、Googleとアメリカが強い中で勢いに乗っているのは? - GIGAZINE
in ネットサービス, Posted by logc_nt
You can read the machine translated English article There were many commented out contents i….