ソフトウェア

マルチモーダルAI「Gemini」を軸に「デジタルエージェント」「検索エンジン」「Chromeとの統合」などをGoogleのサンダー・ピチャイCEOとDeepmind創設者のデミス・ハサビスが語る


2023年12月6日にGoogle DeepMindが、マルチモーダルAI「Gemini」をリリースしました。このGeminiのニュースを事前に得ていたIT関連のニュースレター「Platformer」のケイシー・ニュートン氏が、実際にGoogleのスンダー・ピチャイCEOと、Google DeepMindのデミス・ハサビス氏にインタビューを行っています。

Google unveils Gemini - by Casey Newton - Platformer
https://www.platformer.news/p/google-unveils-gemini

ケイシー・ニュートン氏(以下、CN):
今日、あなたはジェミニの進歩を示すさまざまな業界ベンチマークを共有しました。しかし、私はあなた自身の、個人的なモデルのテストについて興味があります。一歩前進したと感じられる点について、何か気づいたことはありますか?

デミス・ハサビス氏(以下、ハサビス氏):
新しいBardを使えば、全体的な品質が以前のモデルよりも大幅に向上していることがわかると思います。私が特に興味を持っているのは、科学アシスタントとして使うことです。科学論文やその中のグラフを実際に解析して解釈したり、グラフに表を入れたり、グラフを拡張したりなど、とても役に立っているので、それをさらに強化したいと考えています。


スンダー・ピチャイCEO(以下、ピチャイCEO):
マルチモーダリティは非常にワクワクさせられるものです。私たちはマルチモーダリティを製品に取り入れ、思慮深く公開することに取り組んでいますが、そこに多くの新しいシナプスが入ってくると思います。

私にとって刺激的なのは、これが私たちにとって1.0にすぎないということです。2024年に向けて、イノベーションの強力なロードマップがあります。そして、ハサビス氏と彼のチームが本当に得意としているのは絶え間ない反復と新バージョンの開発です。


CN:
DeepMindの製品担当ヴァイスプレジデントであるイーライ・コリンズ氏に、Geminiが何か目新しい能力を示したかどうかを尋ねたところ、彼は「期待していてください」と答えました。Geminiはこれまでの大規模言語モデル(LLM)を超える能力を持つようになると思いますか?それとももっと進化的なものだと思いますか?

ハサビス氏:
いくつかの新しい機能が登場すると思います。これはGemini Ultraのテストの目的の一部です。私たちはベータ版のようなもので、安全性と責任性をチェックするためだけでなく、他にどのように微調整できるかを確認しています。

CN:
Geminiは推論に優れているとあなたはブログに書いていますね。もしそうならGeminiはプランニングにどれだけ優れているのでしょうか?Geminiを使って予約を行うエージェントを作ることは想定できますか?

ハサビス氏:
それは正鵠を射ていますね。私たちがDeepMind時代から伝統的に重要視しているのがそれです。私たちはこの種のエージェントベースのシステムと計画システムの専門家です。私たちはこの分野に力を入れているんです。

マルチモーダリティは重要で、エージェントを構築するために必要な基本的なことです。自分がいる環境をマルチモーダルに解析してからでないと、世界で有用な行動をとることはできません。

ピチャイCEO:
しかし、これからイノベーションが起こるのです。

CN:
あなたはGeminiが2024年に来ると言っています。それによって検索エクスペリエンスはどのように変化すると思いますか?

ピチャイCEO:
私たちはすでに検索生成エクスペリエンスでそれを実験しており、同時に全体的な改善を進めています。私たちはGeminiを基本的なものと考えており、私たちのすべての製品に適用されます。検索も同じです。

検索が強く推進しているものの1つは、一般的にマルチモーダリティです。しかし、今日では、検索をマルチモーダルにするためにはかなりの苦労が必要でした。Geminiは基盤モデルとしてマルチモーダイリティをネイティブに提供するので、検索はGeiminiが革新する分野だと思います。

CN:
検索におけるGeminiは、中期的にはウェブサイトを訪れることなく結果ページから必要な情報を得る回数を増やすと思いますか?

ピチャイCEO:
私たちは基本的に、人々がウェブやコンテンツエコシステムの豊かさと多様性を体験するために検索を利用するというビジョンを持っています。したがって、検索生成エクスペリエンスを使用して私たちができることを拡張できたとしても、実際に人々が探索に出かけることができるように製品を設計しています。それがユーザーの望んでいることだと思います。私はそれを検索の基本的な価値提案だと考えているので、製品を進化させる私たちの目標の一部といえます。

CN:
GeminiがChromeに登場するという報道もあります。ウェブブラウザでGeminiを使って何ができるようになりますか?

ピチャイCEO:
ウェブページにあるものを見て、あなたの質問に答えたり、それに関連する作業を手伝ったりすることができます。ウェブページの図表など、理解したいものを見て、「これを早く要約してくれ」と言うこともあり得ますね。それがすべて可能になったのです。繰り返しになりますが、ウェブブラウジングの間、Geminiがユーザーのアシスタントになり、ユーザーの行動を手助けするという概念です。これらはすべて可能性です。

CN:
技術の現状を把握したいと思います。2024年の大半は、Gemini 1.0の改良に費やすだろうと想像できます。しかし、Gemini 2.0のトレーニングを進める場合、それは単にすでに開発した技術により多くのデータと計算能力を投入するだけの問題だと感じますか? それとも根本的な研究のブレークスルーが必要でしょうか?

ハサビス氏:
いい質問ですね。私たちは両方のフロンティアを押し広げるつもりです。私たちは、AGIレベルのシステムを目指すのであれば必要となるような、そして現在のシステムが持っていないような重要な能力について、多くの研究を検討しており、私たちはそのすべてに懸命に取り組んでいます。

これらの革新的な新機能の上に、スケーリング、アーキテクチャーの改善、そしてさらにより進んだ改良を加えることで、さらに多くの可能性が残されています。実際、有望な研究分野はたくさんあります。


ピチャイCEO:
私にとっては非常に早い段階だと感じています。Gemini 2.0がより良いものになるという明確な見通しがあります。Google DeepMindが行っているすべての作業を見ると、10~15の分野があるようですが、今は1つの分野で急速な進歩が見られますよね?しかし、他の分野からも革新的な技術が出てくるでしょう。

CN:
Geminiはコーディングのコンペで優勝するほどだそうですね。1年後、エンジニアを雇う必要がないほど優秀になっていると考えていますか?

ピチャイCEO:
私はGeminiによって、プログラマーの生産性がはるかに向上し、時間の経過とともに仕事から重労働を取り除くだろうと考えています。プログラマーは洗練されたツールを手に入れ、より多くの人がプログラマーになれると思います。それを過小評価すべきではありません。ハードルは変わり、現場へのアクセスも広がるでしょう。


CN:
2023年初めに私とピチャイCEOが話した時、あなたはAI分野の開発ペースが少し落ちてもかまわないと話していましたね。現在の開発ペースについてどう感じていますか?

ピチャイCEO:
私は2つの視点を持っています。私は可能性について非常に楽観的です。例えば、一歩引いてみて、ここでのブレークスルーが、がんに対する進歩をより容易にするのに役立つかもしれないのであれば、私は可能な限り速く研究を進めてほしいと考えます。そうでしょう? しかし、私たちがより高性能なモデルに向かって突き進んでいる以上、安全策を確実に講じるための時間は必要だと思います。

今のペースはエキサイティングなものだと思います。しかし、一息ついて追いつきたいと感じる瞬間もあるでしょう。それは両立するものだと思います。

ハサビスCEO:
私もそう思います。この分野全体は、ちょっとしたロケットの船旅のようなものです。私はこの分野に20年、30年と取り組んできましたが、すべてがうまくいくのを目の当たりにするのは素晴らしいことです。AIを活用したテクノロジーによって、病気は本当に治るでしょう。新素材の発見や気候変動にも役立つでしょう。AIが社会を助けるために応用できることは、ほとんど無限にあると思います。私たちは今、ゲームや昔よくやっていたことを超えて、現実の世界で実際に実用的で役に立つものに本当に近づいています。

しかし同時に、私は常に人類がこれまでに発明してきた技術の中で、最も変革的な技術のひとつになると信じてきました。今、より多くの人がその考えに近づいていると思います。だから、私たちは思慮深く、責任を持って、可能な限り先見の明を持つ必要があります。

この記事のタイトルとURLをコピーする

・関連記事
文字・音声・画像を同時に処理して人間以上に自然なやりとりができるGPT-4を超える性能のマルチモーダルAI「Gemini」がリリースされる - GIGAZINE

GoogleがAI向けチップ「TPU v5p」を発表、前世代から最大2.8倍の性能向上で「Gemini」のトレーニングにも使用される - GIGAZINE

AIモデル「Gemini Pro」で大幅強化されたBardが利用可能に、2024年にはGemini Ultra搭載の「Bard Advanced」も登場 - GIGAZINE

クラウド上ではなくスマホ上で動くローカルファーストLLM「Gemini Nano」がPixel 8 Proで動作可能に、GboardのSmart Replyとレコーダーの自動要約強化に先行投入 - GIGAZINE

文字・音楽・画像を同時に処理する「マルチモーダルAI」の性能がよく分かるGoogleの「Gemini」ハウツー動画11種を解説 - GIGAZINE

GoogleのマルチモーダルAI「Gemini」ベースのプログラミングに特化したAI「AlphaCode 2」登場、競技プログラミング上位15%に入る性能 - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article here.