ソフトウェア

GoogleがGemini 1.5 Proのアップデートを実施、コンテキストウィンドウを従来の100万トークンから200万トークンに拡張


Googleが、現地時間2024年5月14日に開催された開発者向けイベント「Google I/O」において、2024年2月に発表された高性能AIモデル「Gemini 1.5 Pro」のアップデートについて発表しました。

Gemini 1.5 Pro updates, 1.5 Flash debut and 2 new Gemma models
https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/


Google Gemini update: Access to 1.5 Pro and new features
https://blog.google/products/gemini/google-gemini-update-may-2024/

2024年2月15日に発表されたGemini 1.5 Proは、最大で1時間のムービーや70万語ものテキストを扱えるとうたわれています。発表当初のGemini 1.5 Proは「限定テスト」として一部のユーザーのみが使用可能でしたが、2024年4月9日からはパブリックプレビューが開始され、Gemini API経由で誰でも利用可能になっています。

GoogleがGemini 1.5 Proの一般プレビューを開始、音声理解・システム命令・JSONモードなどの新機能を搭載 - GIGAZINE


さらに2024年5月に開催されたGoogle I/Oでは、Gemini 1.5 Proで翻訳やコーディング、推論など、主要なユースケースで一連の品質改善が行われたことが報告されています。また、当初のGemini 1.5 Proのコンテキストウィンドウは100万トークンでしたが、今回の発表ではプライベートプレビューで200万トークンに倍増したことが明かされています。


なお、200万トークンのコンテキストウィンドウを利用するには、Google AI StudioまたはVertex AIの待機リストに参加する必要があるとのことです。

加えてGoogleはGemini 1.5 ProをAIチャット「Gemini Advanced」に導入することを発表しました。Googleによると、Gemini 1.5 Proの導入によって合計1500ページの文書を理解したり、約100通の電子メールを要約したりすることが可能とのこと。またGoogleは「近いうちに、1時間に及ぶビデオコンテンツや3万行以上のコードベースも扱えるようになるでしょう」と述べています。

また、Googleはコンテキストウィンドウを活用するために、Googleドライブ経由で直接Gemini Advancedにファイルをアップロードする機能を追加しました。これにより、複雑なドキュメントに関する回答などを素早く生成することが可能になるほか、アップロードしたスプレッドシート上のデータの分析やグラフを構築するなどの要求ができるようになります。なおGoogleは「アップロードされたデータはAIモデルのトレーニングには使用されません」と述べています。


さらに、Gemini Advencedの登録者向けの音声会話機能「Gemini Live」が数カ月以内に公開されることが発表されています。Gemini LiveについてGoogleは「Gemini Liveでは、複数の自然な音声の中から好きな音声を選択することが可能です。また、他の会話と同じように、自分のペースで話したり、応答の途中で中断して質問を明確にしたりすることもできます」と報告しています。また、Googleは2024年後半にGemini Live使用時にカメラを利用できるようにする予定であることを明かし、これによってカメラで写したものについても会話が可能になるとしています。

この記事のタイトルとURLをコピーする

・関連記事
Googleがオープンかつ商用利用可能な大規模言語モデル「Gemma」ファミリーにコード補完・生成・命令フォローを強化した「CodeGemma」と効率を最適化した「RecurrentGemma」を追加すると発表 - GIGAZINE

GoogleがチャットAIのGeminiでマルウェアを分析し脅威レポートを要約するサイバーセキュリティツール「Google Threat Intelligence」を発表 - GIGAZINE

「Google I/O 2024」で発表が期待される技術&製品は? - GIGAZINE

OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能 - GIGAZINE

Googleが「動画で検索する機能」を発表するもデモ動画に致命的なミスが見つかる - GIGAZINE

in ソフトウェア, Posted by log1r_ut

You can read the machine translated English article here.