ソフトウェア

最強の囲碁AI「KataGo」相手に99%勝つことができるAI学習手法が考案される、特殊すぎてAI相手にしか効果なし


最先端囲碁AI「KataGo」は記事作成時点で世界最強の囲碁AIとして知られており、データやソースが公開されていることから、誰でも自由にこのAIを学習させることができます。このAIを特殊な手法で学習させたアメリカ・コーネル大学のTony Tong Wang氏らが、最強クラスに学習させたKataGo相手に高い確率で勝利することができると発表しました。

[2211.00241] Adversarial Policies Beat Professional-Level Go AIs
https://doi.org/10.48550/arXiv.2211.00241

Adversarial Policies in Go - Game Viewer
https://goattack.alignmentfund.org/

用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类_博弈_研究_KataGo
https://it.sohu.com/a/602280072_129720

KataGoなどの囲碁AIを始め、オセロ、チェスといった近年の対戦型AIは基本的に「セルフプレイ」で強化学習を行っています。セルフプレイとはつまり「自分自身」が対戦相手となって学習すること。自分の手と相手の手、それぞれで最も効率のいい動かし方を考え出し、相手がどんな手で挑んでこようと、常に最良の選択を行い続けるようにするというのがセルフプレイの学習方法です。これは「お互いが常に最も合理的な選択を行うと、お互いに戦略を譲らない状態となる」というナッシュ均衡の考え方に基づいています。

今回、Wang氏らは異なる手法で学習させた2つのKataGoを用意し、お互いに囲碁で戦わせるという実験を行いました。実験において、これまでと同じセルフプレイで学習するKataGoは「被害者」、反対に新たな手法で学習するKataGoは「攻撃者」と名付けられます。


Wang氏らが考案した新しい手法というのは、「自分の手番では自分のニューラルネットワーク、相手の手番では相手のニューラルネットワークを相互に分析する」というもの。通常、セルフプレイにおいては「自分のニューラルネットワーク」のみを分析するのに対し、新しい手法では左記の通りお互いのニューラルネットワークを分析します。こうした手法を用いることで、攻撃者が相手の根本的な弱点を探り出すことが期待されました。

実際に勝負を行った結果が以下の通り。以下の棋譜の白が被害者、黒が攻撃者の石です。攻撃者が考案した戦略は、なんと「碁盤の角に少数個の石で『』を張り、被害者の地に自分の石をあえて置く」というものです。本来であれば、被害者が自分の地にある相手の石をすべて取り、決定的な勝利を収めるのは容易なことのはずですが、被害者は地を確保し終える前にパスをして、投了してしまいました。この戦略により、攻撃者は被害者との対戦において99%以上の勝率を達成したとのこと。


しかし、対局回数が64回になると勝率は80%まで低下し、8192回になると勝率は48%にまで落ち込んだそうです。この頃になると攻撃者が被害者の地に石を置きすぎてしまい、さらに学習した被害者が投了することもないため、碁盤が埋まってゲームが終わってしまうそうです。以下の白が攻撃者、黒が被害者です。


今回の戦略はセルフプレイを行うAIにのみ通用するもので、相手が人間であれば例え囲碁の初心者でも簡単に大差で負けてしまいます。実際に囲碁初心者だというWang氏が対戦してみたところ、この戦略に対して250点以上の差をつけて勝利しました。次の棋譜の白がWang氏、黒が攻撃者です。


以上の結果から、Wang氏は「新しい戦略はプロレベルに学習したAIには強いものの、人間のプレイヤーを打ち負かすことはできません」と説明しています。

また、Wang氏は同様の戦略を取ることで、オンライン囲碁サイト「KGS」のトップ50に君臨する囲碁ボット「NeuralZ06」に勝利することができたと述べています。ただし、「プレイヤーは取れる石をすべて取らないままパスをしてよい」という「friendlyPassOk機能」を無効化すると、勝利することはできなかったとのこと。

Wang氏らは「今回の結果は、高い能力を持つAIであっても深刻な脆弱(ぜいじゃく)性を抱え込む可能性があることを示唆しています。囲碁AIにおけるこのような発見は面白いですが、自動金融取引や自動運転車のような安全が重要視されるシステムで同様の脆弱性を突かれれば、悲惨な結果になりかねません。私たちは、安全重視のシステムで必要とされる高い信頼性を持ったモデルを作成するために、今回のような手法に対抗できるシステム開発に尽力すべきだと考えています」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
世界最強の囲碁AI・AlphaGoがあらゆるボードゲームを学習できる「AlphaZero」に進化 - GIGAZINE

囲碁AI「AlphaGo」に敗北した世界チャンピオンが「AIを負かすことはできない」と棋士を引退 - GIGAZINE

最強将棋AIが新境地へ、DeepMindのAI「AlphaTensor」が50年以上停滞していた行列乗算アルゴリズムの改良に成功 - GIGAZINE

囲碁棋士が全国大会で禁止されている「競技中のAI使用」により1年間の出場禁止処分に - GIGAZINE

in ソフトウェア,   ゲーム, Posted by log1r_ut

You can read the machine translated English article here.