メモ

A/Bテストでの見出し変更で判明した「人気記事」を作り出すコツとは?ニューヨーク・タイムズの場合


複数の文章や画像を出し分けてどのパフォーマンスが高いかを確認するA/Bテストはウェブサイトの収益を劇的に改善する手法として取り入れられています。A/Bテストを導入する大手メディアの1つであるニューヨーク・タイムズがどのようにA/Bテストを実施しており、効果はどれほどなのかを、StripeのエンジニアであるTom Cleveland氏が独自調査しています。

How the New York Times A/B tests their headlines - TJCX
https://blog.tjcx.me/p/new-york-times-ab-testing

ニューヨーク・タイムズは見出しのA/Bテストを実施していることをオープンにしていますが、一体どのようにA/Bテストが運用されているのかというところまでは明かしていません。そこで、Cleveland氏はニューヨーク・タイムズの公式APIを使って、以下の4つの点を調査することにしました。

◆1:どのくらいの記事で、いくつの見出しをA/Bテストしているのか
◆2:テストされる見出しの違いはどのようなものか
◆3:A/Bテストは役に立っているのか

この調査を実施するため、Cleveland氏はニューヨーク・タイムズをスクレイピングするためのスクリプトを書き、各記事から見出しを抜き出して、それを公式APIのメタデータと関連させた上でデータベースに流し込みました。スクリプトは5分間隔で実行され、調査期間は2021年2月13日からの3週間だとのことです。

◆1:どのくらいの記事で、いくつの見出しをA/Bテストしているのか
まず調査で示されたのは、ニューヨーク・タイムズは全体の29%の記事で複数の見出しをA/Bテストしていたということ。調べた中で最も多かった見出しの数は8つだったとCleveland氏は述べています。以下のグラフを見ると、1つの見出しを持つ記事が最も多く、2つ、3つと見出しの数が増えるごとにその割合が減少しています。


◆2:テストされる見出しの違いはどのようなものか
見出しの違いは大きいものもあればほとんど差異のないものもあったとCleveland氏。たとえば「Don't Give In to Terror」と「Don't Give in to Terror」のように大文字あるいは小文字で「in」と「In」を書き分けるだけのものも存在しました。

一方で、見出しの変化とともに物語の印象が変わっていく記事も。Space Xのロケット発射テストを報じた2021年3月3日の記事は以下の7つの見出しでテストされました。

1.SpaceX to Test Launch Another Prototype of Rocket to Mars(SpaceXが火星行きロケットの別のプロトタイプをテスト発射)
2.SpaceX Halts Test Launch of Prototype for Rocket to Mars(SpaceXが火星行きロケットのプロトタイプのテスト発射を一時中断)
3.SpaceX to Retry Test Launch of Prototype for Rocket to Mars(SpaceXが火星行きロケットのプロトタイプのテストに再挑戦)
4.SpaceX Launches, Lands and Explodes Prototype of Its Rocket to Mars(SpaceX発射、火星行きロケットのプロトタイプが着陸そして爆発)
5.SpaceX Mars Rocket Prototype Explodes, but This Time It Landed First(SpaceXの火星ロケットのプロトタイプが爆発、しかし今回は着地に成功した)
6.SpaceX Mars Rocket Prototype Explodes, but This Time It Lands First(SpaceXの火星ロケットのプロトタイプが爆発、しかし今回は着地に成功)
7.SpaceX Mars Rocket Prototype Explodes, but It Lands First(SpaceXの火星ロケットのプロトタイプが爆発、しかし着地には成功)

A/Bテストが行われたタイムラインは以下のような感じ。午前10時に記事が掲載され、最終的に午後に7案目のタイトルで決着しました。また2案目のタイトルだけテスト時間が極端に短いこともわかります。


上記の見出し変更は小さな変化を重ねたものですが、一気に見出しが変わることも。3月4日に掲載されたバイデン大統領の記事につけられた以下の見出しはその一例です。

1.Speak Softly, and Carry a Big Agenda(穏やかに話し、巨大なアジェンダを実行する)
2.Biden Is the Anti-Trump, and It’s Working(バイデンは反トランプだが機能する)

上記の見出しの変更は記事のエンゲージメントを上昇させ、変更から数時間で記事が「最も読まれた記事」のリストに入ったとのこと。


ただし、全ての見出し変更が記事をエンゲージメントを上昇させるわけではない様子。以下の見出しは1から2に変更された後、すぐに前の見出しに戻されました。

1.Have You Seen How Many Israelis Just Visited the U.A.E.? (アラブ首長国連邦を訪れたイスラエル人を何人知っていますか?)
2.Jumping Jehoshaphat! Have You Seen How Many Israelis Just Visited the U.A.E.?(ヨシャファトのジャンプ!アラブ首長国連邦を訪れたイスラエル人を何人知っていますか?)

以下が各見出しが表示された時間を示すグラフ。午前0から6時の間にぽつんとある青い点が2番目の見出しが表示された期間です。


全体として見出しは時間の経過とともにセンセーショナルになる傾向があり、ニューヨークのクオモ知事のセクハラ疑惑についての記事はその傾向が顕著だったとのこと。

1.Cuomo Attacked Over His Plan for Review of Sex Harassment Claims(クオモがセクハラの申立を検討する計画について攻撃される)
2.Under Siege, Cuomo Revises Plan to Review Sex Harassment Claims(包囲される中で、クオモはセクハラの申し立てを検討する計画を改訂)
3.Under Siege Over Sex Harassment Claims, Cuomo Offers Apology(セクハラの申し立てで包囲される中、クオモが謝罪を申し出る)

最初の見出し変更でクオモ知事は「包囲され」、2度目の変更で「包囲されて謝罪」となることで、より感情に訴える見出しとなっています。この変更も記事のエンゲージメントを上昇させ、「最も読まれている記事」リスト入りを実現しました。


またCleveland氏は、イギリス王室ヘンリー王子の配偶者であるメーガン妃の記事のインタビューも「より感情に訴える見出し」が選ばれた例だとしています。以下がメーガン妃のインタビュー記事見出しの変遷。

1.Saying her life was less a fairy tale, Meghan Markle described the cruel loss of her freedom and identity.(彼女の人生はおとぎ話ではない、メーガン・マークルが自由とアイデンティティーの喪失という残酷を語る)
2.Saying her life was less a fairy tale, Meghan described the cruel loss of her freedom and identity. (彼女の人生はおとぎ話ではない、メーガンが自由とアイデンティティーの喪失という残酷を語る)
3.Meghan Says Life With the U.K. Royals Almost Drove Her to Suicide.(メーガンはイギリス王室での生活が彼女を自殺に追い込みそうになったと語る)
4 .‘I Just Didn’t Want to Be Alive Anymore’: Meghan Says Life as Royal Made Her Suicidal(「私はこれ以上生き永らえたくありませんでした」、王室での生活が自殺願望を生み出したことをメーガンが語る)

Cleveland氏は2時間にわたるインタビュー記事を全て読んだ結果、1と2がうまく内容を要約していると感じたとのこと。メーガン妃が自殺を考えたという話はインタビューの最初の5分間で語られたことであり、実際の内容は多岐に及んだためです。

◆3:A/Bテストは役に立っているのか
Cleveland氏が計算したところ、A/Bテストが行われた見出しは、A/Bテストを行っていない見出しに比べて「最も人気のある記事」のリストに入る可能性が80%高いことが示されたとのこと。また、見出しのA/Bテスト数の増加とエンゲージメントの増加が関連していることも示されました。一方で、見出しのA/Bテストをするほどエンゲージメントが上がるのか、それともニューヨーク・タイムズがエンゲージメントの高い記事でA/Bテストの数を増やしているのかという因果関係までは不明とされています。


全体の記事の量に比べて見出しのA/Bテストが行われる記事が少ないこともCleveland氏は指摘。これは、ニューヨーク・タイムズの収益の62%がサブスクリプションによるものであり、広告収入は27%と割合として少ないことが理由だとみられています。ページビューがサブスクリプションほど重要ではなく、あまりにも過激な文言は潜在的なサブスクリプション加入者を怖がらせる可能性があるとCleveland氏はみています。

この記事のタイトルとURLをコピーする

・関連記事
ウェブデザインやクリック率を改善するためにGIGAZINEでやっているA/Bテストとは? - GIGAZINE

効果的なA/Bテストのやり方とその心構え23個まとめ - GIGAZINE

あらゆるサイトの収益を劇的に改善してきた実験手法「A/Bテスト」の実施に関するヒント - GIGAZINE

A/Bテストを無駄にしないために取り入れるべき統計学的な視点とは - GIGAZINE

あらゆるサイトの収益を劇的に改善してきた実験手法「A/Bテスト」の実施に関するヒント - GIGAZINE

in メモ, Posted by logq_fa

You can read the machine translated English article here.