2019年07月17日 12時20分ソフトウェア

ルービックキューブを一瞬で解くことに深層強化学習アルゴリズムが成功

by Olav Ahrens Røtne

囲碁のトップ棋士に勝利したAI「AlphaGo」は、自らの進化形として生まれた「AlphaGo Zero」に、誕生からわずか30時間で超えられてしまいました。AlphaGoとAlphaGo Zeroの違いは、AlphaGo Zeroが人間の棋譜を参考にせず、自身による強化学習で鍛錬を重ねたという点にありました。これと同じように、カリフォルニア大学アーバイン校(UCI)が生み出した深層強化学習アルゴリズム「DeepCubeA」は、人間の手助けなく、ルービックキューブをほんの一瞬で解けるようになったそうです。

UCI researchers’ deep learning algorithm solves Rubik’s Cube faster than any human | UCI News | UCI
https://news.uci.edu/2019/07/15/uci-researchers-deep-learning-algorithm-solves-rubiks-cube-faster-than-any-human/

Solving the Rubik’s cube with deep reinforcement learning and search | Nature Machine Intelligence
https://www.nature.com/articles/s42256-019-0070-z

6色のパネル9枚で構成された六面体の立体パズル・ルービックキューブは、慣れてくると50手程度で解くことができ、最短だと20手を切ることが可能です。

UCIのピエール・バルディ教授らは、このルービックキューブを「DeepCubeA」と呼ばれる深層強化学習アルゴリズムで攻略。事前に解法を与えたり、人間を手助けをしたりすることなく、2日間かけた自己学習の結果、解決率100％、うち60.3％の事例で最短の解き方を得ることに成功しました。解くのにかかる時間は「ほんの一瞬」だとのこと。

バルディ教授によると、「DeepCubeA」は解決戦略が人間の解き方と異なっており、そもそも推論形式が異なっていると考えられるとのこと。プロジェクトの究極の目標は次世代AIシステムの構築にあるとのことで、「今回のことは、大きな目標への一歩です」とバルディ教授は語っています。

なお、今回の事例は「自己学習で解法に到達した」という点がポイントの1つ。すでにコンピューターを用いた「ルービックキューブ早解き」は相当な速度に到達しており、2018年にはマサチューセッツ工科大学のベン・カッツ氏とジャレッド・ディ・カルロ氏がわずか0.38秒での攻略に成功しています。

世界最速の0.38秒でルービックキューブを解くマシンが登場、世界記録を大幅に塗り替える様子がムービーで公開中 - GIGAZINE