ネットサービス

ロシア最大の検索エンジン「Yandex」のソースコード流出で検索ランキングの決定要因が明らかに


ロシア最大の検索エンジンであり、世界でも第4位の検索エンジン「Yandex」からソースコードが流出しました。ハッカーによる攻撃ではなく、元従業員がGitリポジトリを盗み出したものだとのことで、個人情報は含まれていませんが、アルゴリズム内で用いられている1922の検索ランキング決定要因が明らかになっています。


Massive Yandex code leak reveals Russian search engine’s ranking factors | Ars Technica
https://arstechnica.com/information-technology/2023/01/massive-yandex-code-leak-reveals-russian-search-engines-ranking-factors/

SEOに詳しいアレックス・ブラークス氏は内容の分析を行い、英語でそれぞれの項目について説明を追加したファイルを公開しています。分析によると、1922ある要因の1番目に来ていたのはGoogleのアルゴリズムであるはずの「ページランク」でした。


このほか、Yandexで検索ランキング上位に来る要素は以下のようなものでした。

・ページが古すぎないこと
・多くのオーガニックトラフィックがあること
・URLに含まれる数字やスラッシュの数が少ないこと
・「ハード・ペシミゼーション」の値が0に近いこと(スパムや低品質なコンテンツ、検索ガイドライン違反、ブラックハットSEOなどによるペナルティを課されていないかを示す値だとのこと)
・信頼性の高いサーバーでホストされていること
・Wikipediaのページであること、あるいはWikipediaからリンクされていること
・あるドメインの上位ページからリンクされていること、またはホストされていること
・URLにキーワードが含まれていること(3つまで)

Yandexには元Googleの従業員が多数雇用されていて、ページランクや多くのテキストアルゴリズムなど、Googleと似た部分が多数あることが報告されています。あくまでGoogleとは別物ながら、検索結果は70%が類似しているとのことで、ブラークス氏は今回流出したYandexのソースコードを「SEO的にはとても参考になる情報」と述べています。


なお、Yandexのコードでは関数名や変数名、出力メッセージなどで人種差別的な用語が用いられていたこともわかっています。これらのうち、Nワードは「worker」を置き換えるために用いられている傾向があったそうです。

Yandex data breach reveals source code littered with racist language | IT PRO
https://www.itpro.co.uk/security/data-breaches/369966/yandex-data-breach-reveals-source-code-littered-with-racist-language

・つづき
ロシアの検索エンジンYandexが「ハゲ」と検索してもプーチン大統領の写真が出ないように検索結果をいじっていたことが判明 - GIGAZINE

by Carmen Rodriguez

この記事のタイトルとURLをコピーする

・関連記事
ロシアのGoogleこと「Yandex」の40GB超のGitリポジトリが漏えい - GIGAZINE

Yandexの40GB超えの内部情報流出は「従業員が流出させた」という公式コメント、流出ファイル一覧もアリ - GIGAZINE

Firefoxからロシア製検索エンジン「Yandex」で一発検索する機能が削除される - GIGAZINE

in ネットサービス, Posted by logc_nt

You can read the machine translated English article The source code leak of Russia's lar….