ルービックキューブを一瞬で解くことに深層強化学習アルゴリズムが成功
by Olav Ahrens Røtne
囲碁のトップ棋士に勝利したAI「AlphaGo」は、自らの進化形として生まれた「AlphaGo Zero」に、誕生からわずか30時間で超えられてしまいました。AlphaGoとAlphaGo Zeroの違いは、AlphaGo Zeroが人間の棋譜を参考にせず、自身による強化学習で鍛錬を重ねたという点にありました。これと同じように、カリフォルニア大学アーバイン校(UCI)が生み出した深層強化学習アルゴリズム「DeepCubeA」は、人間の手助けなく、ルービックキューブをほんの一瞬で解けるようになったそうです。
UCI researchers’ deep learning algorithm solves Rubik’s Cube faster than any human | UCI News | UCI
https://news.uci.edu/2019/07/15/uci-researchers-deep-learning-algorithm-solves-rubiks-cube-faster-than-any-human/
Solving the Rubik’s cube with deep reinforcement learning and search | Nature Machine Intelligence
https://www.nature.com/articles/s42256-019-0070-z
6色のパネル9枚で構成された六面体の立体パズル・ルービックキューブは、慣れてくると50手程度で解くことができ、最短だと20手を切ることが可能です。
UCIのピエール・バルディ教授らは、このルービックキューブを「DeepCubeA」と呼ばれる深層強化学習アルゴリズムで攻略。事前に解法を与えたり、人間を手助けをしたりすることなく、2日間かけた自己学習の結果、解決率100%、うち60.3%の事例で最短の解き方を得ることに成功しました。解くのにかかる時間は「ほんの一瞬」だとのこと。
バルディ教授によると、「DeepCubeA」は解決戦略が人間の解き方と異なっており、そもそも推論形式が異なっていると考えられるとのこと。プロジェクトの究極の目標は次世代AIシステムの構築にあるとのことで、「今回のことは、大きな目標への一歩です」とバルディ教授は語っています。
なお、今回の事例は「自己学習で解法に到達した」という点がポイントの1つ。すでにコンピューターを用いた「ルービックキューブ早解き」は相当な速度に到達しており、2018年にはマサチューセッツ工科大学のベン・カッツ氏とジャレッド・ディ・カルロ氏がわずか0.38秒での攻略に成功しています。
世界最速の0.38秒でルービックキューブを解くマシンが登場、世界記録を大幅に塗り替える様子がムービーで公開中 - GIGAZINE
・関連記事
世界最速、わずか1秒でルービックキューブを解くマシンの解説ムービー - GIGAZINE
囲碁王者を倒したAlphaGoをゼロから始めて30時間で打ち負かす「AlphaZero」、将棋・チェスの最強ソフトもサクッと制圧 - GIGAZINE
アルファ碁を作ったDeepMindが3DゲームをプレイするAI「DeepMind Lab」をオープンソースとして公開 - GIGAZINE
Googleが人工知能AlphaGoと世界最強棋士の対局から学んだ2つのこと - GIGAZINE
「スタークラフト2」で誰でも最強AI「AlphaStar」と戦えるように - GIGAZINE
Googleの自己学習する人工知能DQNを開発した「ディープマインド」の実態、何が目的なのか? - GIGAZINE
・関連コンテンツ