2023年03月24日 13時00分ソフトウェア

「OpenAIのポリシーのせいでAIに関する100件近い論文の再現性が失われてしまう」という指摘

AI研究団体のOpenAIは2023年3月、入力された自然言語から自動でコードを出力するAIシステム「Codex」のサポートを終了すると発表しました。これに対し、アメリカ・プリンストン大学の博士課程に在籍するAI研究者のSayash Kapoor氏とArvind Narayanan教授が、「約100件の論文に用いられているCodexのサポートが終了することで、研究の再現性が損なわれてしまう」と主張しました。

OpenAI’s policies hinder reproducible research on language models
https://aisnakeoil.substack.com/p/openais-policies-hinder-reproducible

OpenAIが開発したCodexは、2021年7月にGitHubと提携して構築・リリースしたソースコード補完AIツール「GitHub Copilot」の強化版であり、自然言語を解釈して適切なコードを出力できます。CodexはOpenAIがリリースしているその他のAIモデルとは異なり、オープンソースではないため、使用したいユーザーはOpenAIにモデルへのアクセスを申請する必要がありました。

ところが現地時間の2023年3月20日、OpenAIはユーザーに対して「Codexのサポートを3月23日に終了する」と通知するメールを送信しました。

OAI will discontinue support for Codex models starting March 26. And just like that, all papers and ideas built atop codex (> 200 on ArXiv) will not be replicable or usable as is. Do we still think openness doesn’t matter? pic.twitter.com/CEzBgdP1ps
— Delip Rao ???? (@deliprao) March 21, 2023

Codexは約100件もの学術論文で使用されているため、OpenAIがCodexのサポートを終了してユーザーがアクセスできなくなってしまうと、これらの学術論文の再現性が失われてしまうというわけです。また、通知からサービス終了までの期間が1週間足らずである点も、一般的なソフトウェア慣行と比較して極端に短いと言えます。

Kapoor氏らは、「独立した研究者は論文の妥当性を評価し、その結果を基に研究を積み上げることができなくなるでしょう。また、OpenAIのモデルを使ったアプリケーションを作る開発者も、そのアプリケーションが期待通りに動作し続けることを保証できなくなります」と述べました。

言語モデルの研究においては、モデルのわずかな変更が結果に影響する可能性があるため、再現性を保証するためには研究で使用された正確なモデルにアクセス可能でなくてはなりません。もし、新しいモデルにしかアクセスできない状態で研究結果が再現できなかった場合、それがモデルの違いによるものなのか、それとも研究自体に欠陥があったのか判断することができなくなってしまいます。

研究結果が他の人々によって再現可能であることは、科学研究の正確性を保証する上で重要ですが、近年は科学研究における再現性が低下していることが問題視されています。

科学の「再現性」が危機に瀕している - GIGAZINE

OpenAIは寄せられたフィードバックに応え、研究者に対してCodexへのアクセスを引き続きサポートするプログラムを開始しました。

Thanks for all the feedback on this, we will continue to support Codex access via our Researcher Access Program. If you are not already part of it, we encourage you to apply in order to maintain access to Codex:https://t.co/9OwWyR54NE
— Logan.GPT (@OfficialLoganK) March 22, 2023

しかし、Kapoor氏らはCodexへのアクセスプログラムの申請プロセスが不透明であることや、いつまでCodexへのアクセスが維持されるのかが明らかになっていない点を問題視しています。また、OpenAIはGPT-3.5やGPT-4といった最新モデルを定期的に更新しており、過去のバージョンへのアクセスを3カ月しか維持していないため、最新モデルを使用した研究の再現性も損なわれているとのこと。これは研究者だけでなく、OpenAIのモデルを使用したアプリケーションを作る開発者にとっても、将来のモデルでアプリケーションの機能が維持されるかどうか不透明であることを意味します。

Kapoor氏らは、言語モデルは今や重要なインフラストラクチャーとなっており、バージョン管理されたモデルを提供しないOpenAIのポリシーは研究の再現性に打撃を与えると指摘。大規模な言語モデルをオープンソース化する際にはさまざまな要素を考慮するべきであるものの、オープンソースの言語モデルは研究の再現性を確保する重要なステップになると主張しました。

ソーシャルニュースサイトのHacker Newsでは、「古いモデルのサポートを終了するならオープンソース化するべき」というコメントや、「OpenAIはAIの危険性について懸念しており、リスクを考慮して公開を遅らることもある」といったコメントが寄せられていました。

OpenAI’s policies hinder reproducible research on language models | Hacker News
https://news.ycombinator.com/item?id=35269304

なお、OpenAIはGPT-4のリリースに際し、構築に用いたデータセットやトレーニング方法を非公開にしました。OpenAIのチーフサイエンティスト兼共同創業者のイルヤ・サツキヴァー氏は、「もし皆さんが、私たちと同じようにAIやAGI、つまり汎用(はんよう)人工知能が信じられないほど強力になると信じるのであれば、オープンソースにするのは無意味で悪いアイデアです。数年もすれば、AIをオープンソース化するのは賢明ではないということが、誰の目にも明らかになると思います」と述べており、OpenAIはAIをクローズドなものにする姿勢を見せています。

OpenAIの共同設立者が「私たちは間違っていた」と語る、AIの危険性からデータをオープンにしない方針へと大転換 - GIGAZINE