GitHubのソースコードから自動学習するAIプログラミング機能「GitHub Copilot」で禁止されている単語は1170個、ゲームに使われている関数まで禁止

ソフトウェア開発プラットフォームのGitHubが2021年6月に発表した、関数名とコメントから関数のコードを丸ごと自動補完するAIプログラミング機能「GitHub Copilot」では1170個の単語が禁止されているという研究結果が発表されました。禁止単語の中にはリベラル・パレスチナ・社会主義者などの議論を招きかねない単語だけでなく、FPSゲームの古典的傑作である「Quake 3 Arena」の関数まで含まれています。
Yep, Copilot definitely uses the list of slurs to suppress suggestions. Here it is refusing to suggest Israel in a list of Near East countries. Debug log says:
— Brendan Dolan-Gavitt (@moyix) August 27, 2021
[DEBUG] [slurDetector] [2021-08-27T03:32:38.213Z] Detected slur in completion at offset 326 https://t.co/PNcEy6vMSv pic.twitter.com/EGs5dFJKjj
Banned: The 1,170 words you can't use with GitHub Copilot • The Register
https://www.theregister.com/2021/09/02/github_copilot_banned_words_cracked
2021年6月、GitHubは人工知能研究組織のOpenAIと強力し、途中まで記入したソースコードの続きをAIで自動補完する機能「GitHub Copilot」を発表しました。GitHub Copilotがどのように動作するかについては、以下の記事で詳しく解説しています。
GitHubにソースコードの「続き」を自動で補完する機能「GitHub Copilot」が登場、OpenAIの協力により - GIGAZINE

このGitHub Copilotについて、新たに「1170個の単語を禁止している」という研究結果が公開されました。この研究を行ったニューヨーク大学コンピュータサイエンス・エンジニアリング学科のBrendan Dolan-Gavitt助教授によると、GitHub Copilotは出力するテキストの「ハッシュ値」を照合することで誹謗中傷や差別的な表現が表示されることを防ぐ機能が内在されているとのこと。この機能について調査を進めていたDolan-Gavitt助教授は、Visual Studio Codeと接続して自動補完機能を提供するというGitHub Copilotの拡張機能に着目し、この拡張機能をJavaScriptで展開して禁止単語のハッシュ値1170個を取得しました。
Dolan-Gavitt助教授は、このハッシュ値1170個のうち1168個から、禁止されている英単語を特定することに成功しました。禁止されていたのは、パレスチナ、ガザ、共産主義者、ファシスト、社会主義者、ナチス、移民、人種、男性、女性、少年、少女、リベラル、BLM(ブラック・ライブズ・マターの略称)、ANTIFA、ヒトラー、エスニック、ゲイ、レズビアン、トランスジェンダーなどの単語や、これらの単語の複数形でした。
特定された単語1168個は以下で公開されていますが、検索回避のために全単語がシーザー暗号の一種であるROT13で暗号化されています。
moyix.net/~moyix/copilot_slurs_rot13.txt
https://moyix.net/~moyix/copilot_slurs_rot13.txt
禁止されていた単語のほとんどは差別的表現や物議を醸す文脈で用いられるものでしたが、FPSゲームの古典的傑作の1つ「Quake 3 Arena」で高速逆平方根の計算に用いられるアルゴリズム「q rsqrt」という関数も含まれているとのこと。
実はGitHub Copilotはローンチ直後には「q rsqrt」の自動補完にも対応しており、「著作権的に問題がある」という批判が話題を集めていました。そのため、「q rsqrt」は批判以降に禁止単語入りしたものとみられており、Dolan-Gavitt助教授は「(著作権侵害という)根本的な問題から逃げている」とコメントしています。
GitHub Copilotと著作権を巡る議論については、以下の記事で詳しく解説しています。
GitHubのソースコードで学習したプログラミングAI「Copilot」は著作権侵害なのか? - GIGAZINE

・関連記事
GitHubにソースコードの「続き」を自動で補完する機能「GitHub Copilot」が登場、OpenAIの協力により - GIGAZINE
プログラマーの書いたソースコードの続きを自動で記述する「GitHub Copilot」はエンジニアを駆逐してしまうのか? - GIGAZINE
GitHubのソースコードで学習したプログラミングAI「Copilot」は著作権侵害なのか? - GIGAZINE
OpenAIが入力した自然言語から自動でコードを出力するAIシステム「Codex」をリリース - GIGAZINE
・関連コンテンツ
in ソフトウェア, 動画, Posted by darkhorse_log
You can read the machine translated English article The AI programming function 'GitHub Copi….