ソフトウェア

Gemini 1.5 Proを実際に使ってみたエンジニアが「特にムービーの処理がすごい」と絶賛するレビューを投稿


Djangoの作者の1人であるエンジニアのサイモン・ウィルソン氏がGemini 1.5 Proを実際に使ってみた感想をブログに投稿しています。

The killer app of Gemini Pro 1.5 is video
https://simonwillison.net/2024/Feb/21/gemini-pro-video/


Gemini 1.5 ProはGoogleが2024年2月16日に発表したマルチモーダルAIで、最大100万トークンを処理できると述べられています。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - GIGAZINE


ウィルソン氏は「トークンコンテキストサイズが100万まで拡大したのもすごいが、一番エキサイティングなのはムービーを入力できること」と述べ、実際にムービーを処理するとどんな感じなのかを投稿しました。例えば以下のムービーはウィルソン氏の本棚を撮影した約7秒のムービーです。

My bookshelf - YouTube


このムービーでわずか1841トークンしか消費しないのが最初のすごい点で、さらにGeminiはちゃんと内容を読み取って背表紙に書かれた本のタイトルを一覧で出力しました。


「JSONにして」と頼むとJSON形式で出力してくれます。


それだけでなく、下図のように半分以上が隠れているような本であってもちゃんとLuke Wroblewski著の「Site Seeing: A Visual Approach to Web Usability」であるとGeminiが出力したことにウィルソン氏は特に驚いたとのこと。


ただし1件の幻覚が発生してしまったとウィルソン氏は述べています。

ウィルソン氏は続いて下記の約22秒のムービーを撮影しました。少し長めのムービーでしたが、それでもムービーのトークン数はわずか6049トークンだったとのこと。

My bookshelf 2 - YouTube


ウィルソン氏はトークン数があまりにも少ないことからムービーは画像とは異なる形式で処理されているのではないかと疑っていたそうですが、Googleのブログ投稿に「Google AI Studioはムービーを画像に分割する」と書かれているのを見て考えを改めたそうです。

なお、ウィルソン氏は実際に画像の入力も試し、画像1枚が258トークンになることを確認しました。Googleは、Geminiが45分の映画を2674フレーム・68万4000トークンで処理すると述べていることから、68万4000÷2674の計算より1フレーム当たり256トークンで処理していることになり、ムービーを画像に分割して処理していることは間違いなさそうだと結論付けています。

この記事のタイトルとURLをコピーする

・関連記事
文字・音声・画像を同時に処理して人間以上に自然なやりとりができるGPT-4を超える性能のマルチモーダルAI「Gemini」がリリースされる - GIGAZINE

GoogleがBardをGeminiに名称変更&高性能AIモデル「Ultra 1.0」を搭載した「Gemini Advanced」を発表&「Gemini」をスマホで使えるアプリも発表 - GIGAZINE

GoogleのマルチモーダルAI「Gemini」ベースのプログラミングに特化したAI「AlphaCode 2」登場、競技プログラミング上位15%に入る性能 - GIGAZINE

マルチモーダルAI「Gemini」を軸に「デジタルエージェント」「検索エンジン」「Chromeとの統合」などをGoogleのサンダー・ピチャイCEOとDeepmind創設者のデミス・ハサビスが語る - GIGAZINE

GoogleのマルチモーダルAI「Gemini Pro」を開発者や企業がAPI経由で利用可能に、1分あたり60クエリまで無料 - GIGAZINE

in ソフトウェア,   動画, Posted by log1d_ts

You can read the machine translated English article here.