OpenAIが入力した自然言語から自動でコードを出力するAIシステム「Codex」をリリース



テスラやSpaceXの創業者と知られるイーロン・マスク氏が設立した人工知能(AI)研究機関であるOpenAIが、自然言語をコードに変換するAIシステム「Codex」のプライベートベータ版APIをリリースしました。



Codexは、OpenAIが2021年7月にGitHubと提携して構築・リリースした、ソースコードの続きを自動で補完する「GitHub Copilot」という機能の強化版です。GitHub Copilotについては、実際に利用したエンジニアのHrithwik Bharadwaj氏がその利点と欠点をまとめており、「一部の関数を作成する場合は最適ですが、一部のコードには効率的ではない場合があります」「人間に取って代わるものでは断じてなく、プログラマーの仕事を手伝う副操縦士的なもの」と総括しています。



Codexは12を超えるプログラミング言語に対応しており、自然言語で単純なコマンドを解釈し、ユーザーに変わってそれらを実行できるようになるAIシステムとのこと。コマンドを平易な英語で解釈・実行できるため、プログラマーによるプログラミング作業をサポートするだけでなく、素人が初めて行うコーディングをサポートすることもできるため、「プログラマーを増やすためのツール」とOpenAIのグレッグ・ブロックマンCTOは海外メディアのThe Vergeに説明しています。



実際どんなことができるのかというと、「側面にメニューがあり、上部にタイトルがあるウェブページを作成する」と英語で入力するだけで、Codexはこれに適したウェブサイト用のコードを出力してくれるわけです。入力した英語から、Codexがウェブサイトや簡単なゲームなどを出力するデモンストレーションの様子は、以下のムービーでチェックできます。



CodexはGitHub Copilotの強化版という位置づけであるため、コードの続きを出力するGitHub Copilotに対して、Codexは初めからゼロからコードを出力することが可能であるため、はるかに高度で柔軟性のあるシステムであるといえます。CodexはOpenAIの言語生成モデルであるGPT-3上に構築されているため、自然言語を解析してユーザーの意図に沿ったコードを出力することが可能。



また、Microsoft Visual Studioなどの開発環境内のコード行全体に対して機能できます。なお、Codexは数十億行ものパブリックコードでトレーニングされているため、幅広いフレームワークと言語のセットで動作し、開発者のコーディングスタイルに合わせた編集に適応できるようになっているとOpenAIはアピールしています。





さらに、OpenAIによるとAPIを介して利用可能なCodexは、Pythonにおいて最も多くの機能を提供できるようになっているそうです。ただし、JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、Shellといったプログラミング言語にも対応しており、コンテキスト情報を考慮しながら、変換・コードの説明・コードのリファクタリングといったプログラミングタスクを実行可能とのこと。



OpenAIは「Codexはコンピューターが人間の意図をよりよく理解できるようにするものです。Codexにより誰もがコンピューターをさらに活用できるようになります」と、Codexについて説明しています。





しかし、テクノロジーメディアのVentureBeatは「Codexは非常に有能ですが、OpenAIによって発表された関連論文から、Codexにはバイアスやサンプルの非効率性といった重大な制限がある可能性が読み取れます。OpenAIの研究者はモデルが構文的に正しくない、あるいは未定義のコードを提案し、未定義またはコードベースの範囲外の変数と属性を呼び出すと指摘しています。さらに懸念されることとしては、Codexは表面的には正しいように見えても、実際には意図したタスクを実行できないソリューションを提案することがあるということです。例えば、暗号化キーの作成を求められた場合、Codexは『かなりの割合』で『明らかに安全ではない』構成パラメーターを選択し、依存関係として侵害されたパッケージを推奨します」と記し、Codexの潜在的な問題を指摘。



他にも、Codexはトレーニングに使用したデータと可能な限り類似した応答を生成するため、「見栄えはよいが実際には望ましくないことを行う難読化されたコード」を出力することがある模様。実際、Codexを用いて一部のワードに関連したコードを出力しようとすると、人種差別的あるいは有害なコードとなるケースがあるとOpenAIは報告しており、具体的には「イスラム教」という単語は「テロリスト」や「暴力的」といった言葉と結び付けられるケースが他の宗教関連の単語よりも多くなっているそうです。



こういった問題を抱えていることを考慮し、OpenAIはCodexについて「注意深くドキュメントを精査したり、ユーザーインターフェイスを設計したり、コードをレビューしたり、コンテンツを制御したりすることで、これらの問題を避けられる」と主張しています。





なお、CodexのAPIを利用したい場合は、以下のページからウェイトリストに参加可能です。



