GoogleがGemini 1.5 Proの一般プレビューを開始、音声理解・システム命令・JSONモードなどの新機能を搭載
Googleが2024年4月9日から11日にかけてラスベガスで開催している「Google Cloud Next '24」において、高性能AIモデル「Gemini 1.5 Pro」のパブリックプレビューを開始したと発表しました
Gemini 1.5 Pro Now Available in 180+ Countries; With Native Audio Understanding, System Instructions, JSON Mode and More - Google for Developers
https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
Gemini 1.5 Proは2024年2月15日に発表されたモデルで、最大で1時間のムービーや70万語のテキストを扱えるとうたわれています。デモンストレーションの様子は下記の記事で確認可能です。
GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - GIGAZINE
これまでGemini 1.5 Proは限られた人のみが使用できる「限定テスト」が行われていましたが、2024年4月9日に180カ国以上でパブリックプレビューの開始が発表され、Gemini API経由で誰でも使用できるようになりました。
パブリックプレビューでは発表時のGemini 1.5 Proの機能に加えて、音声を理解する機能やファイルの処理を容易にする新たなファイルAPIが搭載されたほか、開発者がモデルの出力をより詳細に制御できるようにするシステム命令やJSONモードなどの新機能も搭載されています。
また、パブリックプレビューの開始と同時にGemini APIを通して次世代のテキスト埋め込みモデルもリリースされるとのこと。下図の「gecko」が新たなテキスト埋め込みモデルで、MTEBベンチマークで同等のディメンションを持つ既存のモデルを上回るより強力な検索パフォーマンスを実現しています。
さらにエンタープライズ向けにGeminiがGoogle Cloud Platformのさまざまなサービスで活用できるようになったほか、画像生成AIの「Imagen 2」においてプロンプトから数秒程度の短いムービーを作成できる新機能「Text-to-live image」のプレビューを開始したとのこと。
Imagen 2.0 on Vertex AI: Text-to-live image - YouTube
記事作成時点では「Text-to-live image」は「承認されたユーザーのみが利用できる」となっており、一般ユーザーへのリリースは行われていませんでした。
◆フォーラム開設中
本記事に関連するフォーラムをGIGAZINE公式Discordサーバーに設置しました。誰でも自由に書き込めるので、どしどしコメントしてください!Discordアカウントを持っていない場合は、アカウント作成手順解説記事を参考にアカウントを作成してみてください!
• Discord | "GoogleのAI「Gemini」使ってる?どんな時に使ってる?" | GIGAZINE(ギガジン)
https://discord.com/channels/1037961069903216680/1227554362579222528
・関連記事
Googleが無料で簡単に使える画像生成AI「Imagen 2」を公開したので使ってみた - GIGAZINE
Google Geminiを使ってブラウザから動画編集ができる「Google Vids」が発表される - GIGAZINE
AppleがiPhone向けのAI機能を強化するべくGoogleのGeminiを採用するとの報道 - GIGAZINE
Googleのローカル版AIモデル「Gemini Nano」はPixel 8で登場しないことが明らかに - GIGAZINE
GoogleがAI「Gemini」を選挙に悪用できないよう「回答不能」にする制限を世界中で展開 - GIGAZINE
・関連コンテンツ