2024年04月10日 12時22分ソフトウェア

GoogleがGemini 1.5 Proの一般プレビューを開始、音声理解・システム命令・JSONモードなどの新機能を搭載

Googleが2024年4月9日から11日にかけてラスベガスで開催している「Google Cloud Next '24」において、高性能AIモデル「Gemini 1.5 Pro」のパブリックプレビューを開始したと発表しました

Gemini 1.5 Pro Now Available in 180+ Countries; With Native Audio Understanding, System Instructions, JSON Mode and More - Google for Developers
https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

Gemini 1.5 Proは2024年2月15日に発表されたモデルで、最大で1時間のムービーや70万語のテキストを扱えるとうたわれています。デモンストレーションの様子は下記の記事で確認可能です。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - GIGAZINE

これまでGemini 1.5 Proは限られた人のみが使用できる「限定テスト」が行われていましたが、2024年4月9日に180カ国以上でパブリックプレビューの開始が発表され、Gemini API経由で誰でも使用できるようになりました。

パブリックプレビューでは発表時のGemini 1.5 Proの機能に加えて、音声を理解する機能やファイルの処理を容易にする新たなファイルAPIが搭載されたほか、開発者がモデルの出力をより詳細に制御できるようにするシステム命令やJSONモードなどの新機能も搭載されています。

また、パブリックプレビューの開始と同時にGemini APIを通して次世代のテキスト埋め込みモデルもリリースされるとのこと。下図の「gecko」が新たなテキスト埋め込みモデルで、MTEBベンチマークで同等のディメンションを持つ既存のモデルを上回るより強力な検索パフォーマンスを実現しています。

さらにエンタープライズ向けにGeminiがGoogle Cloud Platformのさまざまなサービスで活用できるようになったほか、画像生成AIの「Imagen 2」においてプロンプトから数秒程度の短いムービーを作成できる新機能「Text-to-live image」のプレビューを開始したとのこと。

Imagen 2.0 on Vertex AI: Text-to-live image - YouTube

記事作成時点では「Text-to-live image」は「承認されたユーザーのみが利用できる」となっており、一般ユーザーへのリリースは行われていませんでした。

◆フォーラム開設中
本記事に関連するフォーラムをGIGAZINE公式Discordサーバーに設置しました。誰でも自由に書き込めるので、どしどしコメントしてください！Discordアカウントを持っていない場合は、アカウント作成手順解説記事を参考にアカウントを作成してみてください！

• Discord | "GoogleのAI「Gemini」使ってる？どんな時に使ってる？" | GIGAZINE(ギガジン)
https://discord.com/channels/1037961069903216680/1227554362579222528

この記事のタイトルとURLをコピーする

・関連コンテンツ

2024年04月10日 12時22分00秒 in ソフトウェア, Posted by log1d_ts

You can read the machine translated English article Google launches public preview of Gemini….