2024年12月20日 12時50分ソフトウェア

Googleが思考プロセスを導入して推論を強化したAIモデル「Gemini 2.0 Flash Thinking」を公開、各種テストでOpenAIのo1-previewやGPT-4oを超える性能

Googleが、Gemini 2.0 Flashに「思考プロセス」を生成するようトレーニングを施したモデルとして「Gemini 2.0 Flash Thinking」を公開しました。元のGemini 2.0 Flashモデルよりも強力な推論が行えるようになっています。

Gemini 2.0 Flash の思考モード | Gemini API | Google AI for Developers
https://ai.google.dev/gemini-api/docs/thinking-mode?hl=ja

Introducing Gemini 2.0 Flash Thinking, an experimental model that explicitly shows its thoughts.

Built on 2.0 Flash’s speed and performance, this model is trained to use thoughts to strengthen its reasoning.

And we see promising results when we increase inference time…
— Jeff Dean (@JeffDean) 2024年12月19日

Gemini 2.0 Flash ThinkingのベースとなったGemini 2.0 Flashモデルは2024年12月11日に登場したばかり。Gemini 2.0モデルファミリーの中でもGemini 2.0 Flashは応答速度を重視したモデルでありながら、性能面では前世代の上位モデルにあたるGemini 1.5 Proを上回っています。

Googleが「Gemini 2.0」を発表、高速な軽量モデルで前世代上位モデルを圧倒的に上回る性能 - GIGAZINE

Googleは2024年12月19日、Gemini 2.0 Flashに「思考プロセス」の生成機能を搭載したGemini 2.0 Flash Thinkingの試験運用版を公開しました。

Geminiプロジェクトの主要人物であるノアム・シャジール氏によるデモはこんな感じ。

Curious how it works? Check out this demo where the model solves a tricky probability problem. pic.twitter.com/F3kJv4R9Gy
— Noam Shazeer (@NoamShazeer) 2024年12月19日

「表表表と表裏表のどちらかが出るまでコインを投げるときのオッズは？」という確率の問題を質問すると、「Thinking」欄が出現してモデルの思考内容が表示され始めました。

30秒程度で「2：3」という正しい答えが返ってきています。

Google AI Studioのリーダーであるローガン・キルパトリック氏は少しトリッキーなパズルを試しています。

It’s still an early version, but check out how the model handles a challenging puzzle involving both visual and textual clues: (2/3) pic.twitter.com/JltHeK7Fo7
— Logan Kilpatrick (@OfficialLoganK) 2024年12月19日

「7」「9」「11」「13」という4つのビリヤードボールの画像を見せ、「どうすれば3つだけを使用して合計30にできますか？」と質問。

Gemini 2.0 Flash Thinkingモデルは全ての組み合わせを足し算するなど試行錯誤していましたが、いずれの組み合わせもうまくいかないと分かった後に「画像の表現を解釈する方法はあるだろうか？ボールに数字が印刷されている。ちょっと待って……。数字を上下逆にできる？9を逆転させれば6に見える」と思考プロセスで述べ、「6」「11」「13」という3つで30になると正しくパズルを解くことができました。

AIの性能を人間にブラインドテストさせるChatbot ArenaではOpenAIのo1-previewやGPT-4oをはじめ他の多数のモデルを抜いて1位に輝いています。

Gemini-2.0-Flash-Thinking #1 across all categories! pic.twitter.com/mRctNA31B9
— lmarena.ai (formerly lmsys.org) (@lmarena_ai) 2024年12月19日

Gemini 2.0 Flash ThinkingはGoogle AI Studioにて使用可能で、応答をテストできるようになっています。

試しに「ドーナツの穴の食べ方を教えて」と入力したところ、「ストレートかつユーモアを含む回答を返す」「『食べ方』というワードが文字通りの意味なのか比喩的表現なのか検討する」といった思考プロセスを経て「うーん、残念ながら、ドーナツには食べられるような『穴』は存在しないんですよね！」と返答してくれました。