2020年12月24日 11時02分サイエンス

Google傘下のDeepMindがゲームのルールを教えられなくても勝ち方を勝手に学習していくAI「MuZero」を発表

人工知能企業の「DeepMind」が、新たに「ルールの知識がゼロでも囲碁・将棋・チェス・Atariの勝ち方を自分で学んでいくことができるAI」を発表しました。「MuZero」と名付けられたAIは、「自分で考えるAI」への大きな一歩だとみられています。

Mastering Atari, Go, chess and shogi by planning with a learned model | Nature
https://www.nature.com/articles/s41586-020-03051-4

MuZero: Mastering Go, chess, shogi and Atari without rules | DeepMind
https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

DeepMind MuZero AI Learns The Rules As Its Plays To Master Atari Games, Chess, And More | HotHardware
https://hothardware.com/news/muzero-deepmind-ai

DeepMindが開発した人工知能のAlphaGoは世界最強の棋士に勝利し、その強さは2019年には敗北したイ・セドル棋士が「AIを負かすことはできない」と引退を発表するほどでした。

囲碁AI「AlphaGo」に敗北した世界チャンピオンが「AIを負かすことはできない」と棋士を引退 - GIGAZINE

囲碁の世界では圧倒的な強さを発揮したAlphaGoですが、「不確実性の高い問題」には対処できないとして、ルールがはっきりとしていない現実問題の対処には向かないとされてきました。

DeepMindの新たに発表した「MuZero」は、このようなAlphaGoの課題を解決する新しいアプローチが取られているのが特徴です。以下はAlphaGoやその新バージョンであるAlphaGo Zero、AlphaZero、そしてMuZeroの違いを表した図。左側の緑色の部分がプレイできるゲームを、右側があらかじめ学習させておく知識を示しています。AlphaGoが「囲碁」のみプレイし、「人間のデータ」「囲碁の知識」「囲碁のルール」をあらかじめ教えられる必要があるのに対し、MuZeroは囲碁・チェス・将棋・Atariについて、事前の学習なく自己学習で最適解を導きだせるようになっています。

MuZeroの開発でAtariが利用されたのは「プレイヤーが洗練された戦略を立てる必要があるタスクが豊富で、ゲームスコアという単純な進行指標を提供するため」だと研究チームは説明しています。MuZeroの目標は特定の問題解決のためのトレーニングを受けるだけでなく、問題について「考える」ようにAIをトレーニングすることだそうです。

具体的にいうと、MuZeroは学習済みモデルを使用せずに以下3つの要素をモデル化します。

・値：現在のポジションはどれくらい良いか
・ポリシー：いずれのアクションが最善か
・報酬：最後のアクションがどれぐらい優れているか

MuZeroは「特定のアクションを取ったり計画したときに何が起こるか」ということを、この3つの要素を使ってニューラルネットワークで学習・理解していきます。DeepMindはMuZero以前にもAtariをプレイする人工知能を開発してきましたが、MuZeroはそのいずれよりもパフォーマンスが高く、囲碁・チェス・将棋に関してはAlphaZeroのパフォーマンスに匹敵するとのこと。

「結局のところ、『傘が乾いた状態に保つ方法』を知ることが、空中の雨の水滴パターンをモデル化するよりも重要なのです」と研究チームは述べており、今回の研究結果が、より問題解決スキルに優れたAI開発の一歩になるとみられています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2020年12月24日 11時02分00秒 in サイエンス, Posted by darkhorse_log

You can read the machine translated English article DeepMind under Google announces AI 'MuZe….