「DQN」とその3種のバリエーションの強化学習アルゴリズムを人工知能の研究団体「OpenAI」が公開
テスラやSpaceXの創業者として知られるイーロン・マスク氏は、人工知能(AI)の非営利団体「OpenAI」の設立にも携わっています。このOpenAIが、強化学習アルゴリズム(RLアルゴリズム)の高品質な実装である「OpenAI Baselines」のうち、Deep Q-Learning(DQN)と3種類のバリエーションを公開しました。
OpenAI Baselines: DQN
https://blog.openai.com/openai-baselines-dqn/
We're releasing OpenAI Baselines, reliable implementations of RL algorithms. Today: DQN & 3 variants: https://t.co/Mw0gCIwv1Z
— OpenAI (@OpenAI) 2017年5月24日
「DQN」という略称は、Googleの子会社であるDeepMindが開発した人工知能プログラム「Deep Q-Network」にも用いられていますが、OpenAIは「Deep Q-Learning」の略称として用いています。
Deep Q-Learningは、機械学習の手法の1つとして知られている「Q-Learning(Q学習)」とディープニューラルネットワークの利用を組み合わせたもので、たとえばビデオゲームやロボット工学のような複雑で高次元な環境の強化学習に利用されます。
強化学習の結果というのは、内容に「ノイズ」が多く含まれたり、アルゴリズムのわずかなバグによる差が多数生まれたりと、再現するのがトリッキーなのだそうです。OpenAIでは、AI研究コミュニティが優れたベースラインを作り、研究レベルを更に高いところへ引き上げていくために、有効な実装とそれを作るための最良の実施例として、これらのアルゴリズムを公開することにしたとのこと。制作にあたってはPython 3とGoogleがオープンソース化したライブラリ・TensorFlowを使用しています。
公開されたのはDeep Q-Learningのほか、既存のDeep Q-Learningでときどき特殊なアクションが過大に評価される点を修正した「Double Q Learning」や「Prioritized Replay」、「Dueling DQN」の合計4つで、GitHubにて公開されています。
GitHub - openai/baselines: OpenAI Baselines: high-quality implementations of reinforcement learning algorithms
https://github.com/openai/baselines
なお、OpenAIでは今後も同様にしてアルゴリズムを公開する予定だとのことです。
・関連記事
イーロン・マスクの人工知能研究機関OpenAIがAI学習プラットフォーム「Universe」をリリース - GIGAZINE
人工知能を人間の脳に融合させる「neural lace」についてイーロン・マスクが近々発表か - GIGAZINE
ビッグデータ解析・機械学習・人工知能の発展に伴って「パレートの法則(80:20の法則)」が進化している - GIGAZINE
さまざまな分野で大活躍の「人工知能」で注目すべき5つのポイント - GIGAZINE
・関連コンテンツ