なぜ企業はユーザー行動のデータを収集したがるのかはネット上で人間を監視するボットの仕組みから理解できる

インターネットでユーザー行動は、利益を最大化するための仕組み作りのための貴重なデータの宝庫だと言われています。インターネットでいたるところに存在するボットがどのような仕組みで機能するのかを機械学習を通して解説するムービー「How Machines Learn」を見て「コンピューター・アルゴリズムを鍛えて人間の行動から利益を最大化する構造」を知れば、なぜ企業がデータ収集に熱を上げるのかが理解できます。
How Machines Learn - YouTube

インターネットの世界には、「アルゴリズム」があふれています。

このムービーを見ているのも、アルゴリズムがオススメしたからかもしれません。

あなたがムービーをクリックすれば、アルゴリズムはそれをメモします。

Twitterを開けば、タイムラインにあなたが見るべきツイートが表示され……

欲しい画像があるときには……

ぴったりの画像をアルゴリズムは教えてくれます。

オンライン通販の価格もアルゴリズムが決定し……

送金手続きについてもアルゴリズムはフォローし……

株式市場にはアルゴリズムによる取引が横行しています。

しかし、アルゴリズムがどのように機能しているのかをあなたは知らないはず。

そもそも、アルゴリズムは人間が作ったもの。

「あること」が起こったときに「ある振る舞い」をするように、コンピューターが理解できる形で指示したものです。

しかし、大きな問題は、アルゴリズムに課した条件が複雑すぎてもはや理解できない状態であること。

1秒間に膨大な数の金融決済が行われ……

膨大な数のYouTubeムービーの中で、見る価値があるものが取捨選択されています。

航空機のチケットは……

あるユーザーが支払う最も高い価格がアルゴリズムによって提示されます。

必ずしもアルゴリズムの決定が正しいわけではありません。

しかし、少なくとも人間が下す決断よりははるかに正確です。

このようなボット・アルゴリズムがどのように働くかは、もはやアルゴリズムを作った人間には理解できないほど複雑化しています。

さらに、アルゴリズムについて企業は詳細な内容を明らかにしないものです。

なぜなら大きな利益を生み出すアルゴリズムは「高給取り」だから。

アルゴリズムの中身はブラックボックスです。

さらに最先端のアルゴリズムの科学はそもそも理解が困難なものでもあります。

そこで、ここではアルゴリズムの脳内がどのように働いているのかではなく、結果がどのようにしてもたらされているのか、すなわち「機械学習」のメカニズムについて考えることにします。

ここにミツバチの写真があります。

もう一つ、ミツバチとは別に「3」という数字の写真があります。ミツバチと数字の3の写真をボットに区別させる場面を考えます。

これらの区別は人間にはとても簡単な作業です。

小さな子どもでさえ容易にミツバチと数字の3を区別できるでしょう。

しかし、これらの区別をボットにわかるようにボット語で教え込むのは極めて困難な作業です。

そこで、区別が可能なボットを作るのではなく……

「ボットを作れるボット」を作ることにします。

ボットの製作作業は「ボットを作れるボット」にお任せするのが効率的です。

さらに、ボットを教える教師ボットを作っておけば……

ボットを効率的に教育できます。

このような「ボットを作れるボット」と「ボットを教える教師ボット」の存在によって人間のプログラマーのするべき作業はシンプルなものになります。

最初、ボットの脳内回路はランダムに作成されます。

そして、適当に作り出されたボットは、教師ボットへと送り込まれます。

とはいえ、ボットたちがミツバチと数字の3を区別できるように教育できるように教師ボットを作るのが難しいことに変わりはありません。

そこで、人間は教師ボットに教え込むのではなく大量の画像を与えることにします。ミツバチの画像と……

数字の3の画像を大量に教師ボットに与えます。

そして、ミツバチと数字の3を区別するのに鍵となる事柄を与えます。

ここで大切なのは、教師ボットでさえボットを教育することはできないということ。

教師ボットは教育するかわりに「テスト」をします。

お馬鹿なボットたちは……

テストで悪い成績をとります。

中にはものすごく悪い結果を出すボットもいるはず。

これはボットが悪いというわけではありません。そうなる様に作られているだけです。

テストの結果から、点数の高いボットとそうでないボットを区別して……

点数の低いボットはゴミ箱行き。再び作り直されます。

「ボットを作れるボット」は相変わらずボットをうまく作ることはできませんが、残ったボットを複製して、一部の回路を組み合わせて改造することはできます。

そして、再び教師ボットの元にボットたちは送り込まれます。

教師ボットは再びテストを行い……

テストで選別されたボットは複製されて改造されます。

テストされ……

できの悪いボットはリサイクル。この作業の繰り返し。

この繰り返しの中で、優秀なボットが選出されます。

そして、最も優秀なボット以外はゴミ箱行き。

昔ながらの学校では、教師が指導する生徒の数には限りがあります。

しかし、機械学習の世界では生徒の数は数千であろうと全然OK。

テストも10問というわけではなく……

何百万問を解かせることができます。

機械学習の世界では、膨大な数のボットの選抜が行われ……

テストが繰り返されます。テスト回数に限界はなく、必要な回数だけ繰り返されます。

最初に生き残ったボットは単なる幸運でした。

その幸運なボットは改造され……

運良く改造が「改良」につながったボットは選ばれるという繰り返しの中で……

とてつもなく幸運で優秀なボットが生き残ります。

こうしてテストと改造による選抜を経て、ボットがミツバチと数字の3を区別できる確率は徐々に高まってきます。

ボットは77%という高い確率で画像を区別できるようになりました。

もちろんまだまだ十分ではありません。

無限の倉庫でもあり屠殺場でもある場所から誕生したボットは……

それまで見たことのないミツバチと数字の3の画像を、驚くほどうまく区別することができます。

しかし、なぜボットがこのように画像をうまく区別できるのかは、ボット本人はもちろん教師ボットもボットを作れるボットも人間さえも理解不能です。

度重なる改良によって誕生したボットの頭脳にあるリンクは、もはや理解できないレベルの複雑性を持っていると言えます。個々のリンクのコードを解明できるとしても、絡み合った複雑なリンクの集まりは、人間の理解の範囲を超えます。

ただし、優秀なボットとは言え、区別できるのはテストされた対象のみ。ムービーのミツバチを区別することは不可能。

逆さまの画像や……

紛らわしい画像をうまく区別することもできません。

相変わらず教師ボットはボットを教育することはできないので……

人間がしてやれるのは、テストに出す問題を追加することだけ。最も優秀なボットでさえ間違えてしまう問題を追加してあげればOKです。

以上のことが、企業がユーザー行動を追跡・調査したがる理由を示しています。

「より多いデータ」とは「より長い問題」であり、すなわち「より優秀なボット」を生み出すからです。

CAPTCHAなどで用いられる「ロボットでないことの証明」に使う画像選択作業は……

実は、馬と人間とを見分けられるようにボットを鍛える行為を人間にさせているという側面もあるのです。

最近のCAPTCHAでは自動車や道路標示を見分けさせる問題が多いはず。これは自動運転車の画像認識能力を鍛えさせるためです。

では、YouTubeムービーをできる限り長い時間、ユーザーに視聴させるためにどのようなことが行われているのでしょうか?

ユーザーがムービーを視聴するためにサイトにとどまった時間を計測するのは容易です。

各ボットをユーザーに貼り付かせて、どんなムービーを視聴したかを逐一、記録させます。

最も長いムービーの結果が出ます。

テスト結果が出たあとは、ボットを作れるボットと教師ボットの役割。

ひたすら、テスト&改造が繰り返されます。

こうして生き残ったボットは……

ユーザーをムービーに引きつけておける、オススメムービーを提供できるようになります。

YouTubeのオススメ機能の裏には、無数のボットの取捨選択が行われているというわけです。

そこでどんなことが起こっているのかを知る術はありません。

確実なのは、新しいボットは前のボットよりも高い精度を持つということだけ。

インターネットの世界には、ユーザーの反応をより多く出させるような仕掛けがたくさん用意されています。

そして、利益が最も高まる「点」が探り出されています。

ボットを作り出した人間は……

ボットに操られている状態と言っても間違いではありません。もはやボットを作り出した者でさえ、仕組みを理解できないからです。

「いいね」やコメント、シェア、ツイートなどの行動をボットは常に見張っています。人間がより快適だと感じる状態を作り出すために、ボットがあふれた状態を望んだのは人間だというわけです。

・関連記事
マスメディアがいかに世論を操るのか、ノーム・チョムスキーのマスメディア批判「合意の形成」をアニメで分かりやすく解説 - GIGAZINE
どうやってYouTubeが収益を上げYouTuberが儲けるのか「YouTubeのお金」にまつわる仕組みをわかりやすく解説 - GIGAZINE
SNS情報から個人の趣向を丸裸にし投票行動を自在に操作する影のネット戦略がトランプ大統領を誕生させた - GIGAZINE
人工知能・機械学習・IoTがいかにソフトウェア開発のカギとなってくるのかが分かるグラフが公開中 - GIGAZINE
ビッグデータ解析・機械学習・人工知能の発展に伴って「パレートの法則(80:20の法則)」が進化している - GIGAZINE
・関連コンテンツ
in ソフトウェア, 動画, Posted by darkhorse_log
You can read the machine translated English article Why do companies want to collect data on….