2023年12月14日 11時51分 ネットサービス

GoogleのマルチモーダルAI「Gemini Pro」を開発者や企業がAPI経由で利用可能に、1分あたり60クエリまで無料



Googleは2023年12月6日、文字・音声・画像を同時に処理できるマルチモーダルAI「Gemini」を発表しました。現地時間の12月13日、Geminiのミドルモデルである「Gemini Pro」がAPIを介してアクセス可能となり、開発者や企業が独自のユースケース向けに構築できるようになりました。



Google Gemini API: New developer and enterprise AI products

https://blog.google/technology/ai/gemini-api-developers-cloud/





Google: Gemini API, Imagen 2, Duet AI and more updates

https://blog.google/technology/ai/google-gemini-pro-imagen-duet-ai-update/



Gemini ProはGoogleのマルチモーダルAIであるGeminiのミドルモデルで、すでに対話型AI「Bard」の英語圏ユーザーはテキストベースのプロンプトでGemini Proにアクセスできます。12月13日、Gemini Proが「Gemini API」を介してアクセス可能となり、開発者や企業が独自のユースケース向けにGemini ProをカスタマイズできるようになったとGoogleが発表しました。



Googleによると、Gemini Proは研究ベンチマークにおいて他の同サイズのモデルよりも優れており、記事作成時点のバージョンには3万2000トークンのコンテキストウィンドウが付属しているとのこと。世界中の180以上の国と地域で38の言語をサポートしており、関数呼び出し・埋め込み・セマンティック検索・カスタムナレッジグラウンディング・チャット機能なども搭載されています。





また、Gemini Proにはアプリ構築に役立つSDKも用意されており、Python・Android(Kotlin)・Node.js・Swift・JavaScriptをサポートしているとのことです。



開発者や企業は、APIキーを使用してアプリのプロトタイプを作成するためのウェブベースの開発ツール・Google AI Studioから、Gemini ProのAPIキーを取得できるとのこと。GoogleアカウントでGoogle AI Studioにログインすると、1分あたり60クエリの無料割り当て分を利用可能となりますが、サービス品質向上のために匿名化された入力・出力データが利用されることがあるそうです。



記事作成時点では、Gemini Proはテキスト入力に対してテキストを生成可能なほか、テキストおよび画像を入力してテキスト出力を行う専用のGemini Pro Visionマルチモーダルエンドポイントも提供されています。





また、大規模言語モデルのカスタマイズも可能な機械学習プラットフォーム・Vertex AIでも、企業独自のデータを使用してGeminiをカスタマイズ可能になりました。GoogleはVertex AIユーザーの入力や出力でモデルをトレーニングしないため、企業は完全にデータを制御しつつGeminiをカスタマイズできるとのことです。



記事作成時点では、開発者はGoogle AI Studioを通じてGemini ProとGemini Pro Visionに無料でアクセスでき、1分あたり最大60クエリが利用可能。2024年初頭の一般提供開始まではこのレート制限で無料試用可能で、それ以降はGoogle AI StudioおよびVertex AIで1000文字ごとに、あるいは画像1枚ごとに課金が必要になる予定です。





また、Google Cloudの画像生成機能を大幅にアップグレードした「Imagen 2」も発表され、許可リストに登録されているVertex AIユーザーが利用できるようになりました。



Imagen 2 on Vertex AI is now generally available | Google Cloud Blog

https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available



Imagen 2は従来のモデルよりも画像およびテキストの理解が向上し、テキストからより高品質な画像を生成可能になったとのこと。





画像内にテキストを正しく書き入れる能力も向上しており、組織が画像内のブランディングやメッセージをより制御しやすくなっています。





また、ブランドや製品に用いられるエンブレムやロゴの生成も可能となりました。





さらに、医療業界のユースケースに微調整された大規模言語モデル「MedLM」も、Vertex AIを通じてアメリカのGoogle Cloudユーザーに提供開始されました。



Introducing MedLM for the healthcare industry | Google Cloud Blog

https://cloud.google.com/blog/topics/healthcare-life-sciences/introducing-medlm-for-the-healthcare-industry