ネットサービス

「YouTubeにはどれだけの動画が保存されていてどれだけの人が見ているのか」を科学的に調査するために開発された手法とは?


動画配信プラットフォームのYouTubeは今やインターネットユーザーのほとんどが一度はお世話になっているといっても過言ではないサービスとなっており、ソーシャルメディアの中では最大規模を誇ります。マサチューセッツ大学アマースト校で公共政策、コミュニケーション、情報学を教えるイーサン・ザッカーマン准教授が、このYouTubeの規模を科学的に把握するために構築した調査方法を解説しています。

How Big is YouTube? - Ethan Zuckerman
https://ethanzuckerman.com/2023/12/22/how-big-is-youtube/

現行のソーシャルメディア調査の多くは、フェイクニュースや誤情報、ヘイトスピーチを発見することに重点を置いています。こういった調査はソーシャルメディア上で特定のキーワードを検索し、出てきた投稿の数とインプレッションを計算するだけなので調査自体はそれほど難しいことではありません。しかし、ザッカーマン准教授は、分母となる全体の数を明らかにせずに分子となる絶対数だけを調査する傾向を「分母問題」と呼んで問題視しています。

例えば、調査企業のAvaazが2020年8月に発表した「新型コロナウイルス感染症に関する誤情報についてのレポート」では、新型コロナウイルス感染症に関する誤情報が1年間で38億回閲覧されたと報告されています。38億回というのは非常に大きな数字ですが、全ユーザーがすべての投稿を閲覧した数が示されておらず、38億回という数字が全体の中でどれくらいの規模なのかがわからないというわけです。実際、Facebookでは30億人のユーザーが1日に数十から数百のビューを生成していることを考えると、のべ38億回の閲覧数というのは非常に小さい数とも解釈できます。


分母になる全体のデータにアクセスできたソーシャルメディアには、RedditやTwitter(現X)がありました。しかし、どちらも一般アクセスを遮断してAPIを有料化してしまったため、研究者が分母ベースでRedditやTwitterの研究を行うことがもはやほぼ不可能になってしまったとザッカーマン准教授は述べています。

そこで、ザッカーマン准教授は、RedditやTwitterよりもインターネットユーザーに広く使われているであろうYouTubeに注目しました。調査メディアのPew Research Centerによる調査では、10代の若者の93%がYouTubeを使っているそうで、TikTokが63%、SnapChatが60%であることと比較すると、YouTubeはよりインターネットユーザー全体を捕捉しやすいソーシャルメディアといえます。

しかし、YouTubeにはいくつかのAPIが用意されていますが、YouTubeからサンプルとなる動画をランダムに抽出するための方法がないとのこと。これまでのYouTube関連の研究では、選択した動画リストについて研究するか、1本の指定した動画からおすすめされた動画をたどっていくかのどちらかを研究するしかなく、もちろんそうした手法でも十分優れた調査は可能ですが、YouTubeの全動画のサンプルを得ることはできません。ランダムにサンプルを抽出する方法がなければYouTubeの全体規模を推定することもできない、とザッカーマン准教授は指摘しています。


そこで、ザッカーマン准教授は、Redditの過去の書き込みをすべて蓄積して提供するサイト「Pushshift.io」の運営者であるジェイソン・バウムガートナー氏に相談しました。そして、バウムガートナー氏は、YouTubeの「Innertube API」と呼ばれるドキュメント化されていないAPIを使い、ランダムなURLを推測して動画があるかどうかをチェックするシステムを構築しました。

YouTubeのURLは「https://www.youtube.com/ watch?v=○○○○」となっており、この○○○○の部分にはアルファベットの大文字と小文字、数字、「_」と「-」で構成される11桁の文字列が入ります。考えられる文字列はざっと見積もっても18京4000兆パターンもあり、いかにYouTubeに大量の動画が保存されているとしても、この文字列のパターンが尽きることはまずありません。仮にYouTubeに10億本の動画が保存されているとして、URLをランダムに選択しても有効なアドレスを取得できる確率は184億分の1という計算になります。


ザッカーマン准教授とバウムガートナー氏は「文字列をランダムに生成し、動画があるかどうかをチェックする」という方法は「酔っぱらいが思いついた番号に電話をかけて相手が出るか試しているのと同じようなもの」ということで、「drunk dialing(酔っ払って電話をかける)」と呼んでいたそうです。バウムガートナー氏は、このdrunk dialingを3万2000倍のスピードで行えるように改善し、「drunk dialing」で検証する文字列を制限することでさらに試行回数を減らして動画の抽出率を向上させる方法も考案しています。加えて、大量のスクリプトを回すことで数カ月で1万本以上のランダムなYouTube動画を抽出する手法も確立されました。

このスクリプトによって2万4964本の動画をサンプルとして抽出し、そこからYouTubeの全体規模を推定した結果をまとめたサイト「TubeStats」が以下に公開されています。

TubeStats
https://tubestats.org/


2023年におけるYouTubeには133億2582万1970本の動画が存在すると推定されるとのこと。以下の棒グラフは2006年から2023年までのYouTubeに保存されている動画の推定本数の推移をまとめたもの。


動画の再生回数。最頻値は10.880%の「17~32回」で、ほとんどの動画が再生回数1000回の壁を越えられていないことがわかります。


動画の言語は全体の31.844%が英語。日本語の動画は全体の3.178%で7位でした。TubeStatsでは、サンプルに基づいた推定データが1カ月に1回更新されます。


ザッカーマン准教授は、「おそらく最も重要なことは、Tubestatsを可能な限り維持するつもりだということです。YouTubeがこのデータの存在や、私たちがこのデータを作成するために使った方法に異議を唱える可能性はあります。しかし、私はすべてのメディアプラットフォームに対して、このような高レベルのデータを定期的に公開するべきだと考えています。YouTubeのようなプラットフォームは私たちのデジタル公共圏の最も重要な部分の一部であり、私たちはそこに何があるのか、あるいは誰がこのコンテンツを作って誰にリーチしているのかについて、はるかに多くの情報を必要としています」と述べています。

この記事のタイトルとURLをコピーする

・関連記事
YouTubeのチャンネルがどれぐらいの収益か見積もりを出してくれる「ViewStats」を使ってみた - GIGAZINE

YouTubeの2023年第2四半期における広告収益は約1兆800億円で前年同期比は約4.2%増、YouTubeショートの躍進が大きな勝因か - GIGAZINE

YouTube上では詐欺的広告動画がまん延しており、YouTubeはその存在を把握しているにもかかわらず削除対応に応じないとの指摘 - GIGAZINE

YouTubeの広告動画を16倍速再生して速攻で終わらせる拡張機能が登場 - GIGAZINE

YouTubeにブロックされない広告ブロッカーの人気が急上昇 - GIGAZINE

YouTube上の無数にある動画から学習したい単語やフレーズを抜粋して再生してくれるWebサービス「YouGlish」 - GIGAZINE

YouTubeがAIを駆使してYouTubeショートの背景や字幕を自動で作成したり視聴者に受けるネタを提案したりする機能を発表 - GIGAZINE

in ネットサービス,   サイエンス, Posted by log1i_yk

You can read the machine translated English article here.