ソフトウェア

Amazonの「なか見!検索」を悪用すると本の全容を99%再現可能であるという指摘

by Maddie Keating

Amazonの書籍販売ページで使用できるなか見!検索は、気になる本の試し読みが可能なサービスで、書籍内のフレーズを検索できるためより自分が探している本へたどり着きやすい優れものです。しかしながら、この機能を悪用すると本の全容を読み取ることができてしまうということを、プログラミングなどに関連する情報を発信するミカウ・カウジュニ(Michał Kałużny)氏が指摘しています。

Abusing Amazon Look Inside feature to leak unreleased content.
https://justmaku.org/2018-06-19-amazon-leaking-ebooks

「なか見!検索」はすべての書籍で使えるわけではなく、対応している場合だけ書影の上に当該アイコンが表示されます。


なか見!検索では、本の中身をじっくり試し読みできたり、おすすめ書籍を参照できたりするほか、本の中身を検索することも可能です。


検索窓にキーワードを入れて「GO」をクリックすると……


キーワードが用いられているページ数と、どのような文脈で用いられているかを確認することができます。読みたいと思っているトピックが含まれているか事前に確かめやすいほか、あいまいな情報から検索して書籍を見つけやすい便利な機能です。


さすがに試し読みで全ページが読めてしまっては誰も本を買わなくなってしまうので、それぞれの書籍には閲覧不可のページが指定されていて、この部分は試し読みできず、キーワード検索にもヒットしないようになっています。しかし、ミカウ氏はなか見!検索のAPIをリバースエンジニアリングすることで試し読みのプログラムを解析し、本来は検索できない設定になっている部分のキーワードを検索することに成功したとのこと。


なか見!検索では、検索したキーワードが使用されている場所だけではなく、どのようにキーワードが用いられているかという文脈も出力してくれます。その機能を用いて、ミカウ氏は書籍に複数含まれると分かっているキーワードを始点として書籍全体をクロールするスクリプトを生成し、未公開の部分も検索にヒットさせることを可能にしました。


検索結果はどのページにどのような文章があるのかという情報を出力してくれるので、抽出した文章を正しくつなぎ合わせるためのアルゴリズムを使用し、完全な本の形に近づけていきます。最終的に、オリジナルと比べたときの正確性は90%に至ったそうです。


ミカウ氏は、ツールを改良して手動で適切にレビューを行えば、画像を除いた書籍全体の99%を再現可能であると確信していると述べています。

この記事のタイトルとURLをコピーする

・関連記事
「AI」と「機械学習」は何がどのように違うのか?をわかりやすく解説するとこうなる - GIGAZINE

世界最大のソフトウェア開発プラットフォームで最も人気なプログラミング言語は何なのか? - GIGAZINE

ゲーム開発を始める前に知っておくべきこと - GIGAZINE

ゲーム感覚で子どもでも簡単にプログラミングを学ぶことができる「Turing Tumble」 - GIGAZINE

AIを用いてネットニュースの信頼性や政治的な偏りを判断するという研究報告 - GIGAZINE

経費精算のウソをAIで見抜いて不正な請求をあぶり出すサービスが登場 - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1e_dh

You can read the machine translated English article here.