2019年03月12日 08時00分メモ

あらゆるサイトの収益を劇的に改善してきた実験手法「A/Bテスト」の実施に関するヒント

「A/Bテスト」は科学的に裏付けられた実験によって信頼度の高いデータを集めることができる実験手法です。Microsoftの実験＆分析チームのゼネラルマネージャーであるロン・コハビさんの体験を軸にしたA/Bテスト導入に役立つヒントがHarvard Business Reviewに掲載されています。

A/B Testing: How to Get It Right
https://hbr.org/2017/09/the-surprising-power-of-online-experiments

◆A/Bテストとは？
A/Bテストとは、コンバージョン率を高めるために複数の文章や画像を出し分けてどのパフォーマンスが高いかを確認する手法です。2012年にMicrosoftのエンジニアがBingの検索広告に導入してみると、主要なユーザーエクスペリエンス指標に影響を与えることなく収益を12％も増加させたとのこと。

現代においてはMicrosoftだけでなく、AmazonやBooking.com、そしてFacebook、Googleなど多くの企業が何百万ものユーザーに対していくつものA/Bテストを行っています。A/Bテストはさまざまな場面で活躍していますが、いざ実際にA/Bテストを行おうとするとその実験をどのように設計するか、どうやって統合性を保つのか、結果をどう解釈するかなどの課題が考えられます。

◆小さな変更が大きな影響を与えることがある
一般的に、開発にかかる費用の多寡が成否に関わると考えられがちですが、成功へとたどり着くためには大きく物事を変更することではなく、小さな変更を数多く積み重ねることが大切だと知っておく必要があります。Microsoftの事例では、MSNのサイト上にあったHotmailへのリンクをクリックした際のページ遷移を現在のタブで開くのではなく新しいタブで開くように変更しただけで、クリック率が8.9％も増加しました。

「新しいタブで開く」に効果があるのか、MSNの検索結果でも同様の変更を試したところ、ユーザー1人当たりの検索結果のクリック数が5％増加したとのこと。リンクを新しいタブで開くことはユーザーの関心を得るための最善の方法の一つであり、今ではFacebookやTwitterなどさまざまなサイトでこの手法が利用されています。

また、Amazonの実験によるとクレジットカードのオファーをホーム画面からショッピングカートのページに移動すると年間で何十億円も収益が増加したとのこと。このようにわずかな変更が大きな違いをもたらすことがある一方で、FacebookとTwitterのコンテンツをBingの検索結果に表示するというプロジェクトは数十億円かかったものの、エンゲージメントや収益にはほとんど影響が出なかったそうです。

◆どの分野に投資するかを決める手助けになる
A/Bテストは何を改善するべきかを判断するのにも役立ちます。例えばBingの場合だと、検索結果を表示するのにかかる時間を短縮することの価値を定量化できたとのこと。具体的には、あえて遅延を入れて検証した結果、遅延時間が100ミリ秒伸びるごとに収益が0.6％下がっていました。年間売上が3000億円以上あるBingでは、100ミリ秒の速度改善に対して18億円まで投じてもよいということがわかります。こうした定量的な情報はBingが検索結果の関連性と応答速度のトレードオフに直面した際に意志決定を助けてくれたそうです。

◆テストのためのインフラを整える
新しいアイデアのうち、どのアイデアが成功してどのアイデアが失敗するのかを判断するのは至難の業です。Microsoftの実験すべてをを見通してみると、約3分の1が効果的だと判明し、もう3分の1は特に影響を与えず、そして最後の3分の1は否定的な結果に終わっています。より良い結果を得るためには膨大な数の実験を行う必要があります。Bingでは提案された変更の80%がまず実験されるとのこと。

提案された変更を次々と科学的にテストしていくにはデータを収集して分析するためのインフラが必要です。Microsoftの実験＆分析チームには80人以上のメンバーが在籍しており、いつでもBingやMSN、Office、Windows、Xboxなどの製品で何百もの実験を行うことができます。テストが行われると結果に対して統計分析が実行され、重大な影響を見つけやすくするスコアカードが自動で生成されます。

◆成功を定義する
実験を評価するにはどの指標を目標にするかを決めておく必要があります。一見簡単そうに見えるかもしれませんが、いくつもの指標の短期的な変化を見て、どの変化に注目すれば長期的な予測を上手く行えるのかについて判断するのは難しいものです。評価基準は一度決めた後も毎年見直すのが良いとのことです。

Bingは検索エンジンですが、検索結果の関連性を低くするとユーザーが検索する回数が増えるため短期的には収益が増加することになります。しかし当然ながら、長期的にはユーザーは別の検索エンジンに切り替えると予想されるため収益減少要因となります。Bingではユーザーの検索回数を最小限に抑えつつ、ユーザーが行ったタスクおよびセッション数を最大化することにしているそうです。

◆データの品質を保つ
どれほど優れた評価基準を用意しようとも、実験から得られたデータが信頼できないのであれば意味がありません。とはいえ、データが信頼できるかを確かめるのもまた難しい仕事です。

1つの方法は、A/Aテストを行うことです。全く同じものをテストしてみて、もし何らかの差があると検知されてしまった場合は何かの設定を間違えているということです。単純なアプローチですが、MicrosoftではA/Aテストで数百もの無効な実験や不適切な数式を見つけることができたそうです。

また、Bingでは検索リクエストの50%以上がボットからのものだったため、そうしたデータを取り除いてノイズを減らす必要があったそうです。他にもAmazonでは図書館など一部のユーザーが大量の注文を出したためにA/Bテストに大きな影響が出るなど、外れ値の管理も大切です。

一部のセグメントが大きな影響を与えている場合もあります。BingではJavaScriptのバグのためにInternet Explorer 7のユーザーが検索結果をクリックできない問題が発生し、良好だったはずの結果が悪く表示されてしまっていたこともあったそうです。こうしたバグは平均的な結果だけを見ていると見落としてしまいます。

また、A/Bテストでランダムに振り分けられた人々の人数比が逸脱してしまっている場合にも注意が必要です。例えばランダムにA/Bに振り分けられた人の比率が「82万1588人対 81万5482人」になった場合、比率的には「50.2% 対 49.8%」ですが、これほどの偏りが偶然発生する可能性は50万分の1しかなく、何らかのミスが発生している可能性が高くなっています。

◆因果関係を推定しないこと
観察することで因果関係を推定しても、それが正しいのか判断することは難しいものです。因果関係を立証するには単に観察するだけでは足りず、適切な実験をおこなう必要があり、例えば医学の分野では、薬が安全で効果があることを確かめるために米国食品医薬品局によってランダム化比較試験を行うことが義務づけられています。

A/Bテストは因果関係を立証するための強力なツールですが、因果関係が分かってもその理由が分からない場合があります。Bingでは画面の配色をわずかに変更するだけで収益が大きく伸びたことがあるそうですが、そのハッキリした理由は分かっていません。しかしA/Bテストの結果が証拠として表れているため、荒波渦巻くオンラインの世界で正しい方向に進むことができるのです。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2019年03月12日 08時00分00秒 in メモ, ソフトウェア, ネットサービス, Posted by log1d_ts

You can read the machine translated English article here.