AIなどあらゆる技術を駆使し全自動でニュースまとめ&作成&配信する「Toutiao」急成長の秘密


機械学習を用いてコンテンツを生成・提供する中国発のニュースアグリゲーションアプリ「Toutiao」は、近年急激な成長を遂げています。そんなToutiaoがどうやって成長を遂げてきたのかについて、ベンチャーキャピタルのYコンビネータが分析を行っています。

The Hidden Forces Behind Toutiao: China’s Content King
http://blog.ycombinator.com/the-hidden-forces-behind-toutiao-chinas-content-king/

中国の大手IT企業であるByteDanceが開発するToutiaoは、ニュースフィードやYouTube、Techmemeなどをひとつにしたようなアプリで、中国では毎日1億2000万人以上の人々が使用している超人気アプリです。Toutiaoで興味深いのは、「ムービーやニュースなどをまとめてひとつのアプリでチェックする」という点ではなく、情報の提供の仕方にあります。Toutiaoはユーザーによる情報の入力やソーシャルグラフ、製品購入履歴などに頼らず、機械学習アルゴリズムを用いて高品質なコンテンツフィードを作成し、ユーザーに提供します。

Toutiaoのアルゴリズムはコンテンツを提供するだけでなく、コンテンツを作成することも可能です。2016年のリオオリンピック時には、Toutiaoのボットがニュースの報道内容を作成し、他のメディアよりも素早くニュースを報じました。さらに、ボットが書いた記事は、より高いコストと多くの時間を使って人間の手によって書かれた内容よりも多くのユーザーに読まれることとなりました。

ユーザーは平均で1日当たり74分もToutiaoアプリを使用しており、これはFacebookのユーザー平均よりも長く、Snapchatのユーザー平均の倍以上となります。なお、使用時間の半分以上は短編映画の視聴に費やされており、これによりToutiaoは1日に100億再生以上の動画再生数を生み出しており、Toutiaoは中国版YouTubeのような使われ方をしているとのこと。


そんなToutiaoは2012年に登場したアプリで、機械学習やディープラーニングを駆使してユーザーが興味を示すコンテンツを提供しています。Toutiaoはユーザーがどのコンテンツをタップしたりスワイプしたりしたのか、各コンテンツにどれだけ滞在したか、何月何日の何時にどのコンテンツを見たか、どんなコメントを残したかなどの、ユーザーがどのようにアプリを利用しているかの情報から、コンテンツフィードを改良しています。その結果として1日のアクティブユーザー数が1億2000万人を突破しているわけですが、一体どのような施策の結果、現在のような超大規模なコンテンツプラットフォームになったのかをベンチャーキャピタルのYコンビネータが分析しています。

◆1:ギャップを理解し、機会をつかむ
Toutiaoはスマートフォンの使用が中国で解禁されたタイミングで登場したアプリ。2010年から2014年まで、モバイルの普及率はほぼ成長なしで、65%のままでした。さらに、大手コンテンツプロバイダーの多くがモバイルアプリやモバイルフレンドリーなサイトを開発していなかったため、真の意味でモバイル向けのコンテンツはほとんど存在しませんでした。そのため、2012年中頃までは中国ではAndroid向けのニュースアプリはわずか6つしか存在しておらず、そのうち4つはモバイルへの最適化が限定的に行われた既存のニュースポータルを改良したもので、残り2つはどのコンテンツを表示するかを低速で非個人的なエディタの入力に依存したアグリゲーターだったそうです。加えて、コンテンツに対する中国ユーザーの要求は、WeChatやWeiboなどの中国向けソーシャルネットワークでは不十分とされていました。

そんな中誕生したToutiaoは、使いやすく、パーソナライズされており、有益かつ中毒性のあるモバイルアプリであるということで、中国市場のギャップにうまく入り込むことに成功しました。Toutiaoはリリース当初から使い始めるのが簡単で、アカウントを作ったりパスワードを設定したりSNSと連携したり好みの情報を入力したりする必要は一切なく、シンプルなデザインでチュートリアルなしでも直感的に操作できるようになっています。全てのアプリにおいて、インストールしてもらうことができてもデイリーアクティブユーザー(DAU)になってもらうことは難しいと知られていますが、Toutiaoはその「スタート時のハードルの低さ」により、DAUを増やしていきます。

アプリ名の「Toutiao」は、中国語で「今日の見出し」という意味。アプリのアイコンもユーザーの目を引くもので、ユーザー数増加に一役買っています。また、さまざまなニュースを一か所でまとめてチェックできるというのも、当時としては画期的でした。また、Toutiaoは初期からユーザーの行動を分析しており、リリース後1か月でユーザーごとにパーソナライズされたニュースアグリゲーターへと変貌しています。これらの結果、リリース4か月でDAUを100万人まで伸ばすことに成功。その後、機能やアルゴリズムが毎週更新され改良されています。

中国で利用可能なモバイルアプリの数は2012年から2015年までの3年間で3倍以上に増加していますが、Toutiaoはスタートダッシュを活かして競合アプリが登場する頃には盤石の基盤を築いていたそうです。


◆2:意図的にシステム全体に構築されたデータネットワーク効果
世界中の全てのアルゴリズムを手にすることはできますが、中毒性のあるプロダクトを作らなければ、データを入手することができないのでプロダクトを改善することができません。簡単に言えば、より多くのユーザーがプロダクトを使用するほど、得られるデータが多くなり、結果的にプロダクトをより良く改良できるようになります。そして、その改良がうまくいけば、ユーザーの役に立ち、より多くのデータを得ることにもつながります。

Toutiaoは中毒性のあるアプリに仕上がっており、ユーザーからさまざまなデータを収集することに成功しています。そして、収集されたデータはToutiaoのアルゴリズムに入力され、アプリの品質向上につながります。つまり、Toutiaoは「創造」「収集」「推薦」「相互作用」という4つの段階の循環からなる「コンテンツのライフサイクル」を、すべての段階において最適化することに成功しているというわけです。


・創造
コンテンツの作成は古くから人間の専門領域でした。しかし、Toutiaoはそれを大きく変えようとしており、その主軸には「Xiaomingbot」があります。Xiaomingbotは2016年のリオオリンピック時にデビューしており、伝統的なメディアよりも早くニュースを投稿することに成功しています。そのスピードは圧巻で、なんとイベント終了後わずか2秒でニュースを公開しています。

これを実現するためにはさまざまな障害があります。まず、オリンピックの試合結果に関する記事を公開するにはデータが必要です。そこで、Toutiaoはオリンピックの運営からリアルタイムスコアを更新できるようにし、関連ビジュアルを見つけるための画像メディアを買収、さらに試合に関するライブテキスト解析の監視も行いました。初めは卓球・テニス・バドミントン・女子サッカーから始まっており、これらの種目はルール的に情報を簡単にまとめることができたから選ばれたそうです。

次に、3つの情報源からデータをどのように組み合わせれば「一貫したストーリー」が作れるかを考える必要がありました。これはデータを解析するよりもはるかに困難な課題です。例えば、ニュースの中で使用する画像を選択しても、その画像が試合の内容に適していなければいけないので、自然言語処理能力とコンテキストイメージ認識を統合する必要性が出てきた模様。実際のシステムでは畳み込みニューラルネットワークを使って候補画像の内容を分析し、履歴データから学習することでストーリーに最も関連した画像を選択できるようになっていったそうです。また、シーケンス間でディープラーニングアルゴリズムを使用し、既存のストーリーを要約し、より良い記事タイトルを提案。

そして、リオオリンピック時にはXiaomingbotが450本もの記事を作成し、現在ではスポーツ以外のジャンルの記事も作成できるようになり、1日当たり8000本以上の記事を生成できるようになっています。


・収集(キュレーション)
初期のToutiaoの主要なエンゲージメントドライバーは、有名人のゴシップやポップカルチャー、ライフスタイル記事などの「ソフトニュース」でした。よく知られるような国有の報道機関によるニュースと対照的に、ソフトニュースは多数の個人サイトから配信されている状況で、要するにコンテンツにアクセスする中心的な場所ではなかったというわけ。よって、ソフトニュースをチェックするにはさまざまなサイトを訪問する必要があり、それでいて最も有益な情報を見ているという確証もありませんでした。しかし、Toutiaoの登場により「ソフトニュースをチェックしたいならToutiaoを使えばOK」となったわけ。

コンテンツキュレーションサービスは、ユーザーにコンテンツを提供するだけでなく、どのコンテンツを提供するか選ばなければいけません。最初にウェブサイトを訪問し、コンテンツを特定し、関連するメタデータを収集する必要があります。さらに、ストーリーのメインリポジトリを継続的に更新し、できる限り多くのパーソナライズ版を作成する必要もあります。これらのタスクは、どちらも人間よりもアルゴリズムの方がはるかに優れているプロセス集約型のタスクです。しかし、Toutiaoが登場した際にこういった種類のタスクを行っていたのは、ウェブ上のポータルサイトくらいで、それも人間の編集者の手により行われていました。

さらに、Toutiaoはアルゴリズムを使って低品質のコンテンツを識別し、フィルタリングします。これにより、Toutiaoはユーザーにとって興味深いものだけを提供できるようになったわけです。また、フェイクニュースやスパムなどはテキスト分類アルゴリズムを駆使して識別している模様。

・推薦
コンテンツのキュレーションはToutiaoの中でも最もよく知られている機能で、その成功と評判の大半を占める部分です。コンテンツライフサイクルにおける「収集」の段階では「ディープラーニング」が応用されており、これがToutiaoと競合サービスの決定的な違いとなっています。

レコメンドエンジンが解決しようとしている問題は、「プラットフォームが各ユーザーに推奨すると、ユーザーから高い関心が得られる記事100件」を常に選別することです。問題は簡単ですが、その解決策は難しいものとなっています。Toutiaoが重視しているのは、ユーザーの年齢や性別、社会経済的地位などの属性を示す「ユーザープロフィール」、「記事の内容」、場所関連データなどの「コンテキスト」の3つで、これらを複合的に見てユーザーが関心を持つコンテンツをキュレーションします。

ユーザーがToutiaoのアプリを起動すると、システムはプロファイル内の基本データを参照します。例えばシリコンバレーで働く人の場合、技術関連の記事をクリックする可能性が高くなることは推測できますが、システムは関心や無関心を正しく評価するためにさまざまな種類の記事を表示します。そして、ユーザーのプロフィールからは推測できないような「ユーザーが興味を示すかわからないコンテンツ」に対してどのような関心を示すかを確認します。そして、アプリを使う時間は長くなるにつれて何を推奨するかの選別がより高度化していき、より優れたキュレーションが可能になっていくわけです。

・相互作用
Toutiaoが成長するにつれて、プラットフォーム上でのユーザーとの対話はより重要な役割を担うようになります。ここでもToutiaoは人的資源を使うのではなく、アルゴリズムを使った解決案を提示しています。ToutiaoのAIチームは質問者と回答できる人とを結び付けることができるマッチングエンジンを開発。このマッチングエンジンについては「大規模な知識ベースの条件付き集中型質問応答アプローチ」という論文として成果を公表しており、10万8000件の質問に対して75.7%の精度で正しい回答を返すことに成功しています。

◆3:コンテンツアグリゲーションからコンテンツの行き先へ
アプリがコンテンツを集約する役割から、配信する役割を担うようになることは珍しいことではありません。これを実現するためにToutiaoが行ったのは2点でした。

Toutiaoが行ったこととしては、コンテンツ投稿者への「収益分配に応じたインセンティブの提供」と、「8万以上のToutiaoアカウントを運営」することです。インセンティブプログラムは2014年からスタートしており、記事数や読書率などの数値で目標値を達成した場合には、月額最低限の資金提供も保証しています。8万以上のToutiaoアカウントの中には、ニュースメディアだけでなくブロガーや影響力のある著名人なども含まれており、これによりさまざまなジャンルの記事を取り扱えるようになっています。なお、Toutiao上にはさまざまなジャンルのカテゴリが存在しますが、上位20のカテゴリですらコンテンツ全体の60%を占める程度で、1つのカテゴリで全体の10%以上を占めるものは存在していないほどに、さまざまなカテゴリにコンテンツが散らばっています。


◆4:フォーマットに制約されない
Toutiaoはフォーマットに制約されない柔軟さも持ち合わせており、データがすべきと判断したものに対しては、素早くプラットフォーム全体を拡張することで対応しています。例えば、2015年に中国の多くのムービー配信サービスが長時間のムービー再生に対応しようとした際、Toutiaoはムービー機能に対応し、1~5分程度の短いムービーコンテンツをサポートし始めました。これは、2014年に中国でのインフラの改善によりムービーコンテンツが人気を博するようになったことを観測したからです。さらに、Toutiaoはムービーコンテンツを促進するためにインセンティブプログラムも展開しています。

◆5:早期収益化とプロダクト間の連携
Toutiaoは営業開始から5年、収益化から3年という前例のないスピードで、これまでにない規模の収益を得るようになっています。Toutiaoはこれまでで最も急速に成長しているアプリケーションのひとつで、2017年の売上高目標は22億ドル(約2500億円)以上に設定されています。


Toutiaoは優れたコンテンツキュレーション技術を持っており、これは「ユーザーがどんなコンテンツを望んでいるのかを適切に読める」ということを示しています。この強みを用い、Toutiaoは関連広告を表示して収益を得ています。通常、広告はユーザーの利便性を損なうものですが、最適な広告を表示することで、ユーザーエクスペリエンスへの影響を最小限にとどめることに成功しています。

なお、調査会社によるとToutiaoのCTRは同業他社と比べて200%優れているとのことです。

・関連記事
初代Excelの開発秘話を当時の開発チームメンバーが公開 - GIGAZINE

数々の有名スタートアップを輩出し続けるYコンビネーターによる資金調達の4つのアドバイス - GIGAZINE

Twitch・Instagram・GROUPONなどを成功に導いた創業者たちが起業家へ送るアドバイス「Startup Notes」2014年版 - GIGAZINE

96

in モバイル,   ソフトウェア,   ネットサービス, Posted by logu_ii