Google検索では依然としてAIの分析よりも「メタデータ」が重視されている
Googleなどの検索エンジンは人工知能(AI)を利用して最適な検索結果を表示すると考えている人も多いはずですが、実際にはAIの分析よりも多様な「メタデータ」が重視されています。一体なぜGoogle検索ではメタデータが使われているのかについて、ソフトウェア開発者のCal Paterson氏が説明しています。
We were promised Strong AI, but instead we got metadata analysis
https://calpaterson.com/metadata.html
1990年代後半には、将来の検索エンジンはAIを用いて全てのウェブページを検索して内容を理解し、最適な検索結果を表示できるようになることが期待されていました。ところが、記事作成時点でもGoogleはAIを使って全てのページを分析しているのではなく、ウェブサイトの管理者が提供するメタデータをアルゴリズムに反映しているとのこと。
Googleは常にウェブ全体をクロールして情報を収集しているものの、一般的なクロールのみに依存していると発見できないウェブサイトが大量にあります。そのため、ウェブサイトの管理者が作成するページ一覧である「サイトマップ」を利用し、GoogleはクロールするべきURLを把握しているとPaterson氏は指摘しています。
検索エンジン向けのサイトマップはXMLで記述されており、サイト内の各ページや相対的な重要性、ページが更新される頻度、サイト上の動画ファイルなどの情報が含まれています。Googleがクロールを行う際にはこのサイトマップに従い、より高度なクロールを実施しているそうです。
検索エンジンが最適な検索結果を表示するには、クロールで見つけたウェブページに記載されている内容を理解し、表示の優先順位を決定する必要があります。膨大なページの内容を把握するためにAIが使われていると期待する人もいるかもしれませんが、ここでも実際にはウェブサイトから提供されるメタデータを利用しているそうです。
Googleはページ内のテキスト分析も行っていますが、Googleが他の検索エンジンよりも優位に立ったのは優れた自然言語処理が理由ではありません。Googleがウェブページの重要度を決定するために用いるアルゴリズムのページランクは、学術論文が引用数に基づいて評価される点に着想を得た「被リンク(バックリンク)を順位決定のファクターに用いる」という手法を使ったものです。
バックリンクとは、そのページが他のウェブサイトからリンクされていることを指す言葉であり、多くバックリンクを獲得するほどユーザーの役に立つサイトであると評価されます。また、「より重要なサイトからリンクされているほど価値が高い」という評価軸も存在しており、自演でリンクを稼ぐ行為による悪影響を軽減しています。しかし、これらのアルゴリズムはページの内容そのものではなく、ここでもページへのリンクというメタデータが重視されています。
他にも、Googleは2つの重複したページのどちらが正規のものかを判別するためのメタデータや、オンラインショッピング用の商品情報を示すメタデータなど、ウェブサイトの管理者が提供する多様なメタデータを使用しています。
Paterson氏は個人的な感覚として、検索結果画面の上位に表示されやすいサイトは本当に内容が優れたものではなく、メタデータを正しく設定することが上手な管理者による表面的なものが多いと主張。この問題を改善したい場合は検索ワードに「reddit」「site:reddit.com」などを追加し、メタデータを意識していない掲示板の書き込みを見た方がいいとまで述べています。
メタデータがAIよりも優れた結果をもたらす現象は検索エンジンに限ったことではなく、手動で追加されたメタデータは成熟すると多くの分野でAIに勝るとのこと。GoogleはAIがサービスの提供に多くの役割を果たしているかのように主張しがちですが、依然としてメタデータは重要であるとPaterson氏は主張しました。
・関連記事
間違ったSEOを修正してウェブサイトへの流入を20倍にする方法 - GIGAZINE
Google検索を使って必要な情報を正しく検索するために役立つ10のテクニック - GIGAZINE
2020年に行われたGoogle検索の約3分の2が検索結果のサイトをクリックしない「ゼロクリックサーチ」だったことが判明 - GIGAZINE
Google検索結果に表示される説明文などの詳細なコントロールを可能にする新仕様が発表 - GIGAZINE
Googleが科学者やジャーナリストを助ける「データセット検索」の提供を開始 - GIGAZINE
・関連コンテンツ