ソフトウェア

Googleが思考プロセスを導入して推論を強化したAIモデル「Gemini 2.0 Flash Thinking」を公開、各種テストでOpenAIのo1-previewやGPT-4oを超える性能



Googleが、Gemini 2.0 Flashに「思考プロセス」を生成するようトレーニングを施したモデルとして「Gemini 2.0 Flash Thinking」を公開しました。元のGemini 2.0 Flashモデルよりも強力な推論が行えるようになっています。

Gemini 2.0 Flash の思考モード  |  Gemini API  |  Google AI for Developers
https://ai.google.dev/gemini-api/docs/thinking-mode?hl=ja



Gemini 2.0 Flash ThinkingのベースとなったGemini 2.0 Flashモデルは2024年12月11日に登場したばかり。Gemini 2.0モデルファミリーの中でもGemini 2.0 Flashは応答速度を重視したモデルでありながら、性能面では前世代の上位モデルにあたるGemini 1.5 Proを上回っています。

Googleが「Gemini 2.0」を発表、高速な軽量モデルで前世代上位モデルを圧倒的に上回る性能 - GIGAZINE


Googleは2024年12月19日、Gemini 2.0 Flashに「思考プロセス」の生成機能を搭載したGemini 2.0 Flash Thinkingの試験運用版を公開しました。

Geminiプロジェクトの主要人物であるノアム・シャジール氏によるデモはこんな感じ。


「表表表と表裏表のどちらかが出るまでコインを投げるときのオッズは?」という確率の問題を質問すると、「Thinking」欄が出現してモデルの思考内容が表示され始めました。


30秒程度で「2:3」という正しい答えが返ってきています。


Google AI Studioのリーダーであるローガン・キルパトリック氏は少しトリッキーなパズルを試しています。


「7」「9」「11」「13」という4つのビリヤードボールの画像を見せ、「どうすれば3つだけを使用して合計30にできますか?」と質問。


Gemini 2.0 Flash Thinkingモデルは全ての組み合わせを足し算するなど試行錯誤していましたが、いずれの組み合わせもうまくいかないと分かった後に「画像の表現を解釈する方法はあるだろうか?ボールに数字が印刷されている。ちょっと待って……。数字を上下逆にできる?9を逆転させれば6に見える」と思考プロセスで述べ、「6」「11」「13」という3つで30になると正しくパズルを解くことができました。


AIの性能を人間にブラインドテストさせるChatbot ArenaではOpenAIのo1-previewやGPT-4oをはじめ他の多数のモデルを抜いて1位に輝いています。


Gemini 2.0 Flash ThinkingはGoogle AI Studioにて使用可能で、応答をテストできるようになっています。

試しに「ドーナツの穴の食べ方を教えて」と入力したところ、「ストレートかつユーモアを含む回答を返す」「『食べ方』というワードが文字通りの意味なのか比喩的表現なのか検討する」といった思考プロセスを経て「うーん、残念ながら、ドーナツには食べられるような『穴』は存在しないんですよね!」と返答してくれました。

この記事のタイトルとURLをコピーする

・関連記事
OpenAIが複雑な推論能力をもつAIモデル「OpenAI o1」と「OpenAI o1-mini」を発表、プログラミングや数学で高い能力を発揮 - GIGAZINE

中国のAI企業DeepSeekがOpenAI o1に匹敵する推論AIモデル「DeepSeek-R1-Lite-Preview」公開、オープンソース化する計画も - GIGAZINE

Googleが人間の代わりに情報収集してくれるAI機能「Deep Research」をリリース、ウェブ上の膨大な情報をまとめてレポートを提出してくれる - GIGAZINE

画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは? - GIGAZINE

Googleが従来のモデルよりさらに小型で高速な「Gemini 1.5 Flash-8B」をリリース、価格は50%低くなり遅延も軽減 - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1d_ts

You can read the machine translated English article here.