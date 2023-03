2023年03月02日 19時00分 サイエンス

文章だけでなく視覚的なコンテンツも理解してIQクイズに答えられるAI「Kosmos-1」をMicrosoftが発表、汎用人工知能の開発に前進



近年では画像生成や人間との対話などの特定分野で優れた能力を発揮するAIが注目を集めていますが、一部のAI開発者は人間のように言語や視覚、聴覚などさまざまな情報をまとめて処理できる「Artificial General Intelligence(AGI)/汎用(はんよう)人工知能」の開発を目標としています。新たにMicrosoftが、言語処理だけでなく画像や視覚的なコンテンツの認識にも優れ、図形を用いたIQテストにも回答できるマルチモーダルなAI「Kosmos-1」を発表しました。



技術の進歩により、AIは人間に匹敵するクオリティの画像や文章を生成できるようになっていますが、人間には「たった1人でさまざまなタスクを実行できる」という強みがあり、記事作成時点のAIは汎用性の点で人間に劣っています。一部のAI開発者らはAGIの開発に取り組んでおり、AI開発企業のOpenAIのサム・アルトマンCEOは2023年2月のブログで、「超知性であるAGIを抱えた世界に移行することは、おそらく人類史上最も重要で、希望に満ち、かつ恐ろしいプロジェクトです」「私たちは、まだ誰にも想像がつかないほどの繁栄を人類にもたらすようなAGIを世界に提供したいと願っています」と述べています。



そんな中でMicrosoftは、自然言語処理だけでなく画像処理にも優れ、画像と文章を組み合わせた質問に回答できるAI「Kosmos-1」を発表しました。Microsoftの研究チームはプレプリントサーバーのarXivに掲載した論文で、「知能の基本的な部分であるマルチモーダルな知覚は、知識の獲得や実世界への接続という点で、汎用人工知能を実現するために必要です。言語だけが必要なのではありません。知覚を言語モデルに整合させることが必要なのです」と述べ、Kosmos-1はマルチモーダル大規模言語モデル(MLLM)だと説明しています。



Kosmos-1は825GBのテキストデータセットであるThe Pileと、コモン・クロールから抜粋したウェブデータを使用してトレーニングされています。Microsoftはトレーニング後のKosmos-1に対し、言語理解・言語生成・OCR不使用の文字認識・画像のキャプション生成・視覚的コンテンツを含む質疑応答などのテストを行って性能を調べました。



研究チームが論文で説明したテストの例が以下の通り。問題(1)では、猫の顔に笑った口元を描いた紙をかぶせた画像について、「なぜこの画像が面白いのか説明してください」と尋ねています。これに対し、Kosmos-1は「猫が笑っているように見えるマスクを着けているから」と、かなり正確な答えを出しています。また、(3)の「金髪の人のヘアスタイルは何と呼ばれていますか?」という質問に対しては、「ポニーテール」と正答しています。





「5+4」という画像と共に答えを尋ねた問題(6)では、Kosmos-1は見事に「5+4=9」と正答したほか、スマートウォッチの画像を見せて心拍数を尋ねた問題(7)でも正しい心拍数を回答。





また、ピクサー・アニメーション・スタジオとウォルト・ディズニー・ピクチャーズが製作した2008年の映画「ウォーリー」の画像を見せ、「この画像について詳細を説明してください」と尋ねたところ、Kosmos-1は映画のタイトルやピクサー・アニメーション・スタジオが製作したことまで説明してみせました。





さらにMicrosoftは、IQテストにも用いられるレーヴン漸進的マトリックス課題という図形を用いた問題もKosmos-1に出しています。以下のように規則性がある複数の図形の並びを見せ、「次に来る図形はどれか?」と尋ねる問題で、Kosmos-1は22~26%の正答率を出しました。ランダムに答えた場合の正答率は17%なので、わずかではあるもののKosmos-1は偶然を上回る確率で正答したというわけです。





Microsoftの研究チームは、将来的にKosmos-1をスケールアップして、音声認識機能も統合したいと考えています。なお、MicrosoftはKosmos-1を開発者向けに公開する予定としていますが、テクノロジー系メディアのArs Technicaによると、記事作成時点で利用可能なコードなどは公開されていないとのことです。