ロシア最大の検索エンジン「Yandex」のソースコード流出で検索ランキングの決定要因が明らかに
ロシア最大の検索エンジンであり、世界でも第4位の検索エンジン「Yandex」からソースコードが流出しました。ハッカーによる攻撃ではなく、元従業員がGitリポジトリを盗み出したものだとのことで、個人情報は含まれていませんが、アルゴリズム内で用いられている1922の検索ランキング決定要因が明らかになっています。
You probably heard about Yandex, it’s the 4th biggest search engine by market share worldwide. Yesterday proprietary source code of Yandex was leaked.
— Alex Buraks (@alex_buraks) January 27, 2023
The most interesting part for SEO community is: the list of all 1922 ranking factors used in the search algorithm
[????THREAD] pic.twitter.com/6x82AAmbON
Massive Yandex code leak reveals Russian search engine’s ranking factors | Ars Technica
https://arstechnica.com/information-technology/2023/01/massive-yandex-code-leak-reveals-russian-search-engines-ranking-factors/
SEOに詳しいアレックス・ブラークス氏は内容の分析を行い、英語でそれぞれの項目について説明を追加したファイルを公開しています。分析によると、1922ある要因の1番目に来ていたのはGoogleのアルゴリズムであるはずの「ページランク」でした。
The file with ranking factors: https://t.co/PuSDFp1ulk
— Alex Buraks (@alex_buraks) January 27, 2023
Structure for each factor:
- name
- link to internal wiki (restricted)
- AntiSeoUpperBound (haha)
- description (it's in Russian, I translated it for you)
- etc
Funny, that the first factor in the list - PageRank. pic.twitter.com/7DbUp2pH34
このほか、Yandexで検索ランキング上位に来る要素は以下のようなものでした。
・ページが古すぎないこと
・多くのオーガニックトラフィックがあること
・URLに含まれる数字やスラッシュの数が少ないこと
・「ハード・ペシミゼーション」の値が0に近いこと(スパムや低品質なコンテンツ、検索ガイドライン違反、ブラックハットSEOなどによるペナルティを課されていないかを示す値だとのこと)
・信頼性の高いサーバーでホストされていること
・Wikipediaのページであること、あるいはWikipediaからリンクされていること
・あるドメインの上位ページからリンクされていること、またはホストされていること
・URLにキーワードが含まれていること(3つまで)
Yandexには元Googleの従業員が多数雇用されていて、ページランクや多くのテキストアルゴリズムなど、Googleと似た部分が多数あることが報告されています。あくまでGoogleとは別物ながら、検索結果は70%が類似しているとのことで、ブラークス氏は今回流出したYandexのソースコードを「SEO的にはとても参考になる情報」と述べています。
なお、Yandexのコードでは関数名や変数名、出力メッセージなどで人種差別的な用語が用いられていたこともわかっています。これらのうち、Nワードは「worker」を置き換えるために用いられている傾向があったそうです。
Yandex data breach reveals source code littered with racist language | IT PRO
https://www.itpro.co.uk/security/data-breaches/369966/yandex-data-breach-reveals-source-code-littered-with-racist-language
・つづき
ロシアの検索エンジンYandexが「ハゲ」と検索してもプーチン大統領の写真が出ないように検索結果をいじっていたことが判明 - GIGAZINE
・関連記事
ロシアのGoogleこと「Yandex」の40GB超のGitリポジトリが漏えい - GIGAZINE
Yandexの40GB超えの内部情報流出は「従業員が流出させた」という公式コメント、流出ファイル一覧もアリ - GIGAZINE
Firefoxからロシア製検索エンジン「Yandex」で一発検索する機能が削除される - GIGAZINE
・関連コンテンツ
in ネットサービス, Posted by logc_nt
You can read the machine translated English article The source code leak of Russia's lar….