2016年03月24日 11時28分ソフトウェア

Googleが自社で使っている「クラウド機械学習」を一般に開放、こんなスゴイことが簡単にできる

GoogleがGCP NEXT 2016で、Googleの使うクラウドベースの機械学習プラットフォーム「Cloud Machine Learning」を公開。アプリ開発者が自社のサービスで強力な機械学習機能を利用できるようにしました。

Google Cloud Platform Blog: Google takes Cloud Machine Learning service mainstream
https://cloudplatform.googleblog.com/2016/03/Google-takes-Cloud-Machine-Learning-service-mainstream.html

Google Cloud Machine Learning at Scale — Google Cloud Platform
https://cloud.google.com/products/machine-learning/

Googleは自社のサービス開発にクラウド上でMachine Learning(機械学習)を行うクラウド機械学習を活用しています。例えば、Googleの音声検索、Google Nowの提案機能、Googleフォトの画像分類機能、Google翻訳、メールアプリInboxの返信自動生成機能などがクラウド機械学習によって開発されています。このGoogleのサービスを支えるクラウド機械学習機能を、「Cloud Machine Learning」として、一般ユーザーが利用できることになりました。

Cloud Machine Learningでは、Googleが開発済みの機械学習モデルがAPIとして提供されており、開発者はこれを使って以下の様な強力な機械学習モデルをすぐにサービスに利用することができます。

・画像分析API「Cloud Vision API」
カメラで取得した画像をGoogleのクラウドサービス「Google Cloud Platform」で解析することができるAPIが「Cloud Vision API」です。

・音声認識用API「Cloud Speech API」
同じくGoogle Cloud Platform上で音声認識機能を使える「Cloud Speech API」もリリースされました。

Cloud Vision APIとCloud Speech APIを使ってどんなことができるのかは以下のムービーで解説されています。

What is Cloud Speech API? - YouTube

Cloud Speech APIを使えば、Googleが開発する最新の音声認識技術を開発者はAPIとして使えます。例えばアプリから送られた音声データはクラウドでテキストに変換されて返されます。

Cloud Speech APIはAndroid端末の音声検索や音声入力と共通の機械学習技術が利用されています。

「東京の天気は？」と音声を入力すると……

東京の現在の温度を返すことも可能です。

Cloud Speech APIはすでに80種類の言語に対応しており、少々の騒音にも影響されない高い認識能力を備えているとのこと。Googleが長年開発してきた先進の音声認識モデルや対話機能をアプリ開発者はAPIとして簡単に利用できるというわけです。

ということで、Cloud Speech APIを使ってどんなことができるのかを、このロボット「GoPiGo」で実演してみましょう。

GoPiGoはRaspberry Piベースのロボットで、カメラやマイクを搭載しており音声や画像を認識できます。

GoPiGoがマイクで取得した音声データは……

クラウドに送られて、認識結果をテキストとしてリアルタイムで受信可能。

テキストデータへの変換は音声認識と並行処理できるので、たとえ音声が途絶えることなく連続で送られてもクラウドはリアルタイムで処理することが可能です。

「ダンスできる？」

GoPiGoは「ダンスできる？」という音声を認識して、その回答としてダンスを始めました。

APIでは認識する言語を指定することも可能です。

日本語で「回れ右」と話しかけると、言葉を問題なく認識できました。

ポルトガル語での「回れ左」もOK。

APIはGoogleクラウドの他のAPIと組み合わせることもできます。例えば画像認識APIのCloud Vision APIとOCR機能を組み合わせてみます。

「左見て、右見て、回って」という文章をGoPiGoに見せると……

Cloud Vision APIで画像を認識してテキストに変換し……

その通りに動き始めました。

Cloud Speech APIはリアルタイムのストリーム認識だけでなくバッチ処理も可能。

ボイスメールやポッドキャスト、コールセンターなどで記録された音声の文字起こしに利用することもできます。

Google Cloud Platformの強力なマシンパワーを活用した対話型の音声認識アプリを作ることも可能です。

・大規模機械学習機能
Cloud Machine Learningには大量のビッグデータから目的を探し出すビックデータ解析機能もあり。これを使うことでビッグデータの解析を行う大規模な機械学習モデルを開発者自身が設計して管理することが可能です。もちろん、強力なマシンパワーを持つGoogle Cloud Platformを利用するため、データ解析は短時間かつ正確だとのこと。さらに、GoogleクラウドストレージやGoogleのBigQueryなどの他のクラウドデータプラットフォームと統合することもできます。

Googleが持つ機械学習開発環境をアプリ開発者が簡単に活用できるCloud Machine LearningがGoogle Cloud Platformに追加されたことで、従来とはまったく異なる新しいアプリが続々と登場してくると期待できそうです。

Cloud Machine Learningを含むGoogle Cloud Platformは、以下のページから登録することで無料で試用可能。無料トライアル期間の60日間で、300ドル(約3万4000円)分の機能を利用できます。

Google Cloud Platform の無料試用
https://console.cloud.google.com/freetrial