GitHubの偽スター経済の恐るべき実態

GitHubでは、ユーザーはリポジトリに「スター」を付けてブックマークしておくことができます。このスター数はリポジトリの人気を示す指標としても捉えられ、投資家らはスター数を基準に投資対象を選ぶことも。業界ではこのスター数を水増しするビジネスがはびこっていることが問題視されています。
Inside GitHub's Fake Star Economy | Awesome Agents
https://awesomeagents.ai/news/github-fake-stars-investigation/
GitHubはスターについて「付けるとリポジトリやトピックが後で見つけやすくなる」と紹介しているほか、「リポジトリにスターを付けるということは、メンテナに対して作業についての感謝を示すことでもある」とも付け加えています。多くの人にスターを付けられたリポジトリは人気ランキングにも表示されるため、ユーザーはスター数を基準に利用するかどうかを決めることがあります。
一部の投資家もスター数を基準として投資対象を選んでいます。投資家でアナリストのジョーダン・セガール氏によると、資金調達における初期段階「シードラウンド」に到達したプロジェクトのスター数中央値は2850であるとのこと。
AI専門記者のエレナ・マルケッティ氏はスターを水増しするビジネスが存在することを指摘し、「シードラウンドでは通常100万ドル(約1億6000万円)以上調達できます。2850スターであれば最大でも300ドル(約4万8000円)以下で購入できることを考えると、とてつもない投資利益率を生み出します」と伝えました。
スター水増し疑惑を決定的なものにしたのはカーネギーメロン大学とノースカロライナ州立大学による研究でした。研究チームは2019年から2024年までのデータを分析し、1万5835件のリポジトリが人為的にスターを水増ししていて、付与されたスターの数が450万個に上ることを突き止めています。
GitHubでスターを人為的に水増しする行為が横行中、水増しされたリポジトリの約70%がマルウェアに関連との調査結果も - GIGAZINE

マルケッティ記者も20のリポジトリに対する独自分析を実施し、水増しの痕跡を見分ける方法を共有しました。
マルケッティ記者によると、水増しの影響を受けていないリポジトリは長年GitHubを利用し、自身のプロジェクトを持ち、他のユーザーをフォローしている開発者によってスターが付けられる傾向にあるとのこと。こうしたリポジトリで、自身のプロジェクト数ゼロ、フォロワーゼロ、自己紹介なしの「ゴーストアカウント」が付与したスター数は全体の約1%程度にとどまるそうです。
一方で水増し疑惑のあるリポジトリはゴーストアカウントの割合が高くなります。マルケッティ記者が調べたリポジトリのうち特に典型的だったものはゴーストアカウントの割合が最大28.7%に達していました。
これらのアカウントは「作りたて」というわけではなく、中央値では作成から1000日以上経過していたそうです。ところが中身が虚構で、3分の1は独自のリポジトリゼロ、2分の1から5分の4はフォロワーゼロ、そして4分の1はいずれもゼロの完全なゴーストアカウントでした。マルケッティ記者は「これらはスター水増しのために購入または育成された古いアカウントです」と伝えています。

他にも、スター数に対するフォークの比率が強いシグナルになるとのこと。例えば水増し疑惑なしの「Flask」というリポジトリは1000スター当たり235のフォークがありましたが、ゴーストアカウントが28%に達していた「FreeDomain」は1000スター当たり17のフォークしかありませんでした。マルケッティ記者は「15万7000件もスターが付いているリポジトリがほとんどフォークされていないのは変です」と指摘しました。
同様にスター数に対するウォッチャー数の比率も参考になります。先述のFreeDomainでは1000スター当たりのウォッチャー数は1人しかいませんが、Flaskでは29人に達します。
マルケッティ記者は、少なくとも12のウェブサイトがGitHubスターを販売していると伝えています。これらのサイトは「新規作成アカウント」「作成から数年経過して貢献履歴もあるアカウント」などさまざまな商品を提供していて、高いもので1スター当たり0.9ドル(約140円)で販売しているとのこと。
スター数の他にもダウンロード数が人気の指標としてみられることもありますが、開発者のアンディ・リチャードソン氏は無料で自身のリポジトリのダウンロード数を1週間で100万近くまで押し上げられることを示し、ダウンロードも参考にはならないことを示唆しました。

アメリカでは、ボットや偽アカウントによって生成された影響力の売買が法律で禁止されていて、マルケッティ記者は「GitHubのスターもこの枠組みに該当する」と指摘しています。もしスタートアップが資金調達中に偽のGitHubスターを購入し、投資家がそれらの指標を信頼して資金を投じた場合、通信詐欺の枠組みが適用されるはずだと述べました。
GitHubも利用規約で偽のスター付与を禁止していますが、取り締まりは事後的で、スター操作に関する透明性レポートも存在しないことをマルケッティ記者は疑問視し、現状はスター数を安易に信用せず、信頼性を検証するよう呼びかけました。
・関連記事
GitHubで「偽のスター」を購入して信用度を偽装しているプロジェクトの見分け方 - GIGAZINE
技術選定をGitHubのスター数で行う場合の落とし穴についてオープンソース開発者のグループが語る - GIGAZINE
「10年かけてGitHubリポジトリが集めた5万4000個ものスターをうっかりミスで失ってしまった」という体験談 - GIGAZINE
・関連コンテンツ
in メモ, ソフトウェア, Posted by log1p_kr
You can read the machine translated English article The terrifying reality of GitHub's f….






