2019年10月09日 08時00分ネットサービス

成功した機械学習モデル150個を分析してわかったことまとめ、Booking.comの場合

by stem.T4L

宿泊予約サイトのBooking.comはプラットフォームに機械学習を取り入れており、毎日いくつものA/Bテストを実施して最適なオプションや表示方法を模索しています。機械学習を取り入れるなかで失敗と成功の両方を何度も経験してきたBooking.comが、150の成功モデルから学んだことについて論文を発表しました。「機械学習が現実の企業やプラットフォームのパフォーマンスにどう影響するのか」を述べたこの論文を、VMwareのCTOを務めたのちにAccelのベンチャーパートナーとなったAdrian Colyer氏がかみ砕いて解説しています。

150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com
(PDFファイル)http://delivery.acm.org/10.1145/3340000/3330744/p1743-bernardi.pdf

150 successful machine learning models: 6 lessons learned at Booking.com – the morning paper
https://blog.acolyer.org/2019/10/07/150-successful-machine-learning-models/

音楽を提供するようなプラットフォームであれば「オススメ」がユーザーの趣味にあわなくても大したことではありませんが、一晩を過ごし、価格も決して安くない宿泊という分野では、「オススメ」の精度は非常に重要になります。そこで、数々の成功と失敗を重ねてきたBooking.comは、開発・使用して成功した150の顧客対応アプリを分析し、そこから学んだことを公開しています。

Booking.comは学んだことを論文の中で「6つのレッスン」を箇条書きにしているわけではないのですが、Colyer氏が要約すると以下の6つになるとのこと。

1：機械学習モデルを導入したプロジェクトは大きなビジネス価値をもたらす
2：機械学習モデルのパフォーマンスは、ビジネスのパフォーマンスと同じにならない
3：解決しようとする問題をはっきりさせることが大切
4：予測は遅延をもたらす
5：モデルの質に関して迅速なフィードバックを得ること
6：ランダム化比較試験を用いてモデルを使った時のビジネスインパクトを測る

Booking.comが使う機械学習モデルは、大きく以下の6つのカテゴリに分けられます。

・旅行者の好みを幅広く予測するモデル
・旅行の文脈を予測するモデル
・履歴などからユーザーの見た内容をトラッキングするモデル
・UIを最適化するモデル
・レビューを始めとするコンテンツを集めてどれを表示するか決めるモデル
・価格やオプションのトレンドをコンピューティングするモデル

この6パターンの機械学習モデルからBooking.comが学んだレッスンは以下の通り。

1：機械学習モデルを導入したプロジェクトは大きなビジネス価値をもたらす
Booking.comによると、「機械学習を使用しなかった成功したプロジェクト」よりも「機械学習を使用し成功したプロジェクト」の方が高い収益をもたらす傾向があったとのこと。また、機械学習ベースのプロジェクトは、その後のプロダクト開発の基礎になることも多かったそうです。

2：機械学習モデルのパフォーマンスは、ビジネスのパフォーマンスと同じにならない
Booking.comではランダム化比較試験を用いることで、機械学習モデルによって提供されたものの価値を分析しています。その結果、モデルのパフォーマンスが上がることは、必ずしもビジネス価値を上げるとはいえないことがわかりました。これは、ビジネスの価値が既に飽和していたり、そもそも提供されるものの利用者が少なかったり、不気味の谷現象が生じたりと、さまざまな理由が考えられます。

以下の画像では、Booking.comのユーザーが「私はザルツブルクとロンドンについて入力しただけなのに、なぜBooking.comは私がウィーンに行こうとしていることまで知っているのだ？」とユーザーがいぶかしんでいるのがわかります。これが不気味の谷現象が発生している一例。

3：解決しようとする問題をはっきりさせることが大切
機械学習モデルを作る際には、問題を明確にすることが非常に重要になります。パフォーマンスの向上は、モデルの改良ではなく、設定そのものを変えることによってもたらされることもあるそうです。

4：予測は遅延をもたらす
機械学習が予測を行う際にはリソースを必要とします。Booking.comで「人工レイテンシ」を導入する実験が行われたところ、レイテンシが30％増加すると、コンバージョン率が0.5％下がることが示されたとのこと。Booking.comはこれを関連原価とみなしましたが、よりパラメーターが少ないモデルや自社製の線形予測エンジンなどを使うことでレイテンシの長さを最小化しました。

5：モデルの質に関して迅速なフィードバックを得ること

by Nick Fewings

機械学習モデルがリクエストに正しく反応しているのかは、出力のクオリティをモニタリングして検証する必要があります。しかしBooking.comの場合、これが非常に難しいとのこと。というのも、ユーザーが「特別なリクエスト」を出すかどうかを予測するモデルの場合、予測が行われるのはユーザーが宿を探している時ですが、実際に「特別なリクエスト」を行うのは予約時であり、時間的な隔たりがあるためです。同様に、ユーザーがレビューを行うかどうかを予測するモデルの場合、予測と、その答えが得られるまでの期間は数日あるいは数週間に及ぶことがあります。

この点について、Booking.comは二項分類でモデルが出力した応答の分布を観察し、「1つの安定固定点と2つの高まりを持つ分布は2つのクラスをうまく区別するモデルの兆候」と判断していたとのこと。「応答分布分析はモデルの欠陥を迅速に検出できる有用なツール」とBooking.comは述べています。

6：ランダム化比較試験を用いてモデルを使った時のビジネスインパクトを測る
成功した機械学習モデルの多くは、高度な実験デザインのもとで行われていた、とBooking.comは述べています。

論文には、複数のタイプのランダム化比較試験に関する提案が含まれています。ランダム化比較試験において統制群は変更が施されていないプラットフォームにアクセスし、実験群だけが変更が施されたプラットフォームにアクセスします。例えば、全てのユーザーに変更を露出するのが適切ではない場合は、適格なサブセットから統制群と、実験群を作ります。

また、モデルが全く割り当てられない統制群と、モデルが割り当てられ一定の基準を満たした時に変更が起こる実験群1、モデルが割り当てられるものの基準を満たさず変更が起こらない実験群2というタイプもあります。

2つのモデルを比較する場合も、統制群、実験群1、実験群2の3つのグループにわけて実験を行います。

機械学習について書いた論文の多くは、数学的・アルゴリズム的なものが多く、商業的な利用においてどのような影響を及ぼすかを論じたものはほとんどないとのこと。Booking.comの論文は、プラットフォームや産業的な環境に対する機械学習モデルの影響を述べている点で、非常に価値が高いとAdrian Colyer氏は述べています。

この記事のタイトルとURLをコピーする