2026年03月19日 08時00分サイエンス

チェスや囲碁で有効だったAIの強化学習が単純なゲームで失敗してしまう理由とは？

AIはチェスや囲碁といったボードゲームで人間を上回る強さを発揮していますが、2023年には特定の戦術を用いることで囲碁AIに勝利する方法が見つかるなど、AIの強さには弱点もあることがわかっています。新たに発表された論文では、AlphaZeroなどで採用されている強化学習という機械学習手法が、一部のシンプルなゲームでは通用しないことが報告されました。

Impartial Games: A Challenge for Reinforcement Learning | Machine Learning | Springer Nature Link
https://link.springer.com/article/10.1007/s10994-026-06996-1

Figuring out why AIs get flummoxed by some games - Ars Technica
https://arstechnica.com/ai/2026/03/figuring-out-why-ais-get-flummoxed-by-some-games/

ボードゲームでAIに勝てるかどうかを調べることは、単なる知的好奇心に過ぎないと思われるかもしれません。しかし、AIの弱点を知ることで失敗しやすいパターンを特定したり、AIのトレーニング手法を改善する方法を考案できたりします。多くの人々が日常生活や業務でAIを頼るようになっている中で、AIの改善手法を探ることの重要性はますます高まっています。

研究チームが取り上げたのは、「ニム」のような非常に単純なゲームです。ニムは「有限個のコインや石からなる山を1つ以上用意し、2人のプレイヤーが交互に好きな個数ずつコインや石を取り除いていく」というゲームです。これを繰り返していくと、最終的にどちらか一方が最後のコインや石を取り除くことになり、最後のコインや石を取り除いたプレイヤーが勝利します。

ニムのより視覚的にシンプルなバージョンとしては、「マッチ棒をピラミッドのように『最上段が1本、2段目が3本、3段目が5本、4段目が7本……』という風に並べ、同じ段から好きな本数ずつマッチ棒を取っていく」というものがあります。このバージョンはニムの山をそれぞれの段に見立てたもので、山を複数個用意する場合と同様に、最後の1本を取ったプレイヤーが勝利となります。

ニムのように各プレイヤーが動かせるコマが共有されており、行動の選択肢がプレイヤー間で変わらないゲームのことを不偏ゲームと呼びます。チェスや囲碁のようにプレイヤー間で動かせるコマが違ったり、ポーカーのように相手の手札がわからなかったりするものは不偏ゲームではありません。

ニムのような不偏ゲームの特徴のひとつは、ゲームのどの時点でも盤面を正確に評価し、どちらのプレイヤーが勝つ可能性があるかを判断できる点です。言い換えれば、盤面を特定の関数(パリティ関数)に入力すれば最適な手や勝利する可能性を算出できるというわけです。

今回研究チームは、AlphaGoなどと同様の強化学習を用いて、ニムのような不偏ゲームで勝利するためのパリティ関数を開発できるかどうかを調べました。強化学習は機械学習手法のひとつであり、AIにルールや制約を与え、AI自身による探索を繰り返すことで最適な目標への到達方法を試行錯誤させるというもの。チェスAIを強化学習で訓練する場合、チェスのルールをAIに与えて自分自身で繰り返し対局させることで、さまざまな盤面構成と勝率を関連付けることができます。

ピラミッドバージョンのニムの場合、盤面構成に応じて最適な手が限られているため、チェスや囲碁などよりもAIにとって簡単と思うかもしれません。しかし、今回の研究ではピラミッドが5段の場合は強化学習がうまくいっていたものの、6段になるとパフォーマンスの改善速度が劇的に低下し、7段になると500回自己対戦した時点でパフォーマンスの向上がほぼ止まることがわかりました。

研究チームは問題をよりわかりやすくするため、潜在的な手を提案するサブシステムを「ランダムに動作するサブシステム」に置き換えてみました。すると、7段のニムでは強化学習済みのバージョンとランダム動作のバージョンで、500回の自己対戦を経てもパフォーマンスが変わらなかったとのこと。7段のニムでは、初期状態から最終的な勝利につながる3つの手が存在することが判明していますが、AIは初期状態で発生しうるすべての手にほぼ同等の評価を与えていました。

今回の結論について解釈する際、ニムのような不偏ゲームが特殊なのだと考えることもできます。しかし、研究チームは同様の兆候がチェスAIにも発生する可能性があり、AIの盤面評価で「チェックメイトを見逃す手」などが高評価される場合があると指摘しています。チェスの場合は将来の分岐が多いため、これらのミスが問題にはなりにくいものの、ニムのように常に最善手が存在するゲームではミスが顕在化しやすい可能性があるとのこと。

研究チームは、「AlphaZeroは連想学習に優れています。しかし、ゲームの状態と結果の相関関係から暗黙的に学習できないような、記号的推論を必要とする問題では失敗します」と述べています。つまり、実際にはゲームを支配する単純なルールが存在していても、強化学習だけでAIがそのルールに到達できるとは限らないというわけです。

テクノロジー系メディアのArs Technicaは、多くの人々が数学の問題解決におけるAIの有用性を模索しているものの、AIは記号的推論に失敗する可能性があると指摘。「AIにそのような推論をさせる方法を明確に示すことは難しいかもしれませんが、どの手法が明らかにうまくいかないかを知っておくことは有益です」と述べました。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2026年03月19日 08時00分00秒 in AI, サイエンス, ゲーム, Posted by log1h_ik

You can read the machine translated English article Why does reinforcement learning, which w….