2024年04月10日 12時22分 ソフトウェア

GoogleがGemini 1.5 Proの一般プレビューを開始、音声理解・システム命令・JSONモードなどの新機能を搭載



Googleが2024年4月9日から11日にかけてラスベガスで開催している「Google Cloud Next '24」において、高性能AIモデル「Gemini 1.5 Pro」のパブリックプレビューを開始したと発表しました



Gemini 1.5 Pro Now Available in 180+ Countries; With Native Audio Understanding, System Instructions, JSON Mode and More - Google for Developers

https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html





Gemini 1.5 Proは2024年2月15日に発表されたモデルで、最大で1時間のムービーや70万語のテキストを扱えるとうたわれています。デモンストレーションの様子は下記の記事で確認可能です。



GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - GIGAZINE





これまでGemini 1.5 Proは限られた人のみが使用できる「限定テスト」が行われていましたが、2024年4月9日に180カ国以上でパブリックプレビューの開始が発表され、Gemini API経由で誰でも使用できるようになりました。



パブリックプレビューでは発表時のGemini 1.5 Proの機能に加えて、音声を理解する機能やファイルの処理を容易にする新たなファイルAPIが搭載されたほか、開発者がモデルの出力をより詳細に制御できるようにするシステム命令やJSONモードなどの新機能も搭載されています。





また、パブリックプレビューの開始と同時にGemini APIを通して次世代のテキスト埋め込みモデルもリリースされるとのこと。下図の「gecko」が新たなテキスト埋め込みモデルで、MTEBベンチマークで同等のディメンションを持つ既存のモデルを上回るより強力な検索パフォーマンスを実現しています。





さらにエンタープライズ向けにGeminiがGoogle Cloud Platformのさまざまなサービスで活用できるようになったほか、画像生成AIの「Imagen 2」においてプロンプトから数秒程度の短いムービーを作成できる新機能「Text-to-live image」のプレビューを開始したとのこと。



Imagen 2.0 on Vertex AI: Text-to-live image - YouTube





記事作成時点では「Text-to-live image」は「承認されたユーザーのみが利用できる」となっており、一般ユーザーへのリリースは行われていませんでした。