セキュリティ

GitHubで非公開にされたはずのリポジトリがMicrosoftのAIアシスタント「Copilot」を通じて公開されていたという指摘


ソフトウェア開発プラットフォームのGitHubでは、作成したリポジトリを非公開にすることで関係者以外にコードを見られるのを防ぎつつ、プロジェクトを管理することができます。ところが、イスラエルのサイバーセキュリティ企業であるLassoの調査により、MicrosoftのAIアシスタント「Copilot」を通じて、Microsoftを含むさまざまな企業が管理する2万を超える非公開リポジトリにアクセス可能だったことが判明しました。

Lasso Research: Fortune 500 Companies found Exposed in Microsoft Copilot via Bing Cache. Read Now.
https://www.lasso.security/blog/lasso-major-vulnerability-in-microsoft-copilot


Thousands of exposed GitHub repositories, now private, can still be accessed through Copilot | TechCrunch
https://techcrunch.com/2025/02/26/thousands-of-exposed-github-repositories-now-private-can-still-be-accessed-through-copilot/

Copilot exposes private GitHub pages, some removed by Microsoft - Ars Technica
https://arstechnica.com/information-technology/2025/02/copilot-exposes-private-github-pages-some-removed-by-microsoft/

Lassoの研究チームは2024年8月、「OpenAIが非公開のGitHubリポジトリでトレーニングを行っており、ChatGPT経由でデータを公開している」というLinkedInの投稿を発見しました。これを受けて研究チームが調査したところ、かつて公開されていたものの後に非公開化されたGitHubリポジトリが、Microsoftの検索エンジンであるBingによってインデックス化されており、そのデータを基にChatGPTが架空のコンテンツを生成したことがわかりました。

さらなる調査では、ChatGPTはインデックスのおかげでリポジトリの存在自体は認識できるものの、実際のデータは提供できないことが確かめられました。以下のスクリーンショットを見ると、非公開リポジトリについて尋ねられたChatGPTが「残念ながらそのリポジトリの詳細コンテンツは、当該のGitHubページの呼び出しにエラーがあるため、現在アクセスできません」と回答していることが確認できます。


その後Lassoは、「Bingがかつて公開されていた非公開GitHubリポジトリのインデックスを作成していたのなら、MicrosoftのCopilot経由でアクセスできるのではないか?」と考えて調査を行いました。

その結果、Copilotはかつてリポジトリが公開されていた時点のデータを、ユーザーの要求に答える形で出力することがわかりました。Lassoの研究者らは、「GitHub上のあらゆるデータはたとえ一瞬しか公開されていない場合でもインデックス化され、Copilotのようなツールによって公開される可能性があると気付いた後、これらの情報にどれほど簡単にアクセスできるのかに衝撃を受けました」と述べています。


研究チームは、Copilot経由の流出リスクがあるかつて公開されていたが現在では非公開になっているリポジトリを「ゾンビリポジトリ」と名付け、どれほどのゾンビリポジトリが存在するのかを調べました。

その結果、GoogleやIntel、Huawei、PayPal、IBM、Tencent、そしてMicrosoft自身を含む1万6920の組織が持つ2万580件のゾンビリポジトリが確認されました。この中にはGitHubやHuggingFace、OpenAIなどのプライベートトークンやシークレットキーが含まれるなど、セキュリティ上の問題から非公開化されたと思われるリポジトリもあったとのことです。


Lassoは2024年11月にこの調査結果をMicrosoftに通知したものの、Microsoftはこの問題について「影響が少ない」ものとして分類し、キャッシュの動作は許容可能だと主張したとのこと。Microsoftは2週間以内にBingキャッシュのリンク機能を削除し、問題を修正したように思われました。ところがその後も、Copilot経由でキャッシュされたページに引き続きアクセス可能であり、キャシュ自体から非公開リポジトリのデータが削除されたわけではないと報告されています。

Lassoは今回の調査結果から、「一度でもリポジトリを公開したら、すべてのデータが危険にさらされると仮定するべき」「大規模言語モデルを新たな脅威ベクトルとして認識するべき」「GitHubなどのプラットフォームでシークレットキーやトークンを公開しないなど基本的なデータ保護対策に努めるべき」といったアドバイスを送りました。

Microsoftは、この問題を取り上げたテクノロジー系メディアのArs Technicaへの電子メールで、「一般的に大規模言語モデルは、ウェブから入手可能な情報を使って学習されることが多いと理解されています。もしユーザーが、これらのモデルのトレーニングに自分のコンテンツが公然と利用されるのを避けたいのであれば、自分のリポジトリを常に非公開にすることが推奨されます」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
コード自動入力AI「GitHub Copilot」は「開発者のコードを勝手に売りさばくサービス」という指摘 - GIGAZINE

Microsoftはコード補完AIツール「GitHub Copilot」でユーザー1人あたり月額3000円近くの損失を出しているという報告 - GIGAZINE

「GitHub Copilotがコードを違法にコピーしている」と主張する開発者による訴訟の大部分を裁判所が棄却 - GIGAZINE

GitHub Copilotでコードの品質は改善されるのか? - GIGAZINE

GitHubの調査により開発者の92%がAIコーディングツールを愛用している実態が判明 - GIGAZINE

AIに「もっといいコードを書いて」と繰り返し要求するとコードの実行速度は向上するがバグが増えるという報告 - GIGAZINE

GitHubの削除されたリポジトリや非公開のリポジトリに誰でもアクセスできてしまうのは仕様通り - GIGAZINE

GitHubがうまくいった理由を共同創設者が解説 - GIGAZINE

GitHubがオープンソース開発にまつわる8400件のアンケート結果を公開、セキュリティを重視しAI利用が増加 - GIGAZINE

「10年かけてGitHubリポジトリが集めた5万4000個ものスターをうっかりミスで失ってしまった」という体験談 - GIGAZINE

in ソフトウェア,   ネットサービス,   セキュリティ, Posted by log1h_ik

You can read the machine translated English article It was pointed out that repositories tha….