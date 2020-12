2020年12月04日 15時00分 ソフトウェア

「相手のあらゆる行動の確率を計算する」ポーカーAIをFacebookが開発、将来的にはサイバーセキュリティへの応用も



FacebookのAI開発チームが、超人的なポーカーのプレイを見せるAI「ReBeL」を発表しました。ReBeLは、ゲームに参加するプレイヤーが取りうる行動の確率を考慮することで、これまでのAIが不得手としていたタイプのゲームでも高いパフォーマンスを発揮し、将来的には不正行為の検出やサイバーセキュリティ分野など、実世界での活躍が期待できるとされています。



ReBeL: A general game-playing AI bot that excels at poker and more

https://ai.facebook.com/blog/rebel-a-general-game-playing-ai-bot-that-excels-at-poker-and-more/





ゲーム理論におけるゲームは、将棋やチェスなど各プレーヤーが互いの意思決定の内容やゲーム展開を完全に把握できる「完全情報ゲーム」と、各プレーヤーが自分の手札を隠すポーカーのような「不完全情報ゲーム」に分類されます。



2016年に、GoogleのAI・AlphaGoが囲碁のトップ棋士イ・セドル九段を下し、当時は「人類がまだAIに負けていない唯一のボードゲーム」とされていた囲碁でAIが勝利を収めるなど、AIは完全情報ゲームを非常に得意としています。



AlphaGoの勝利から3年後の2019年には、Facebookとカーネギーメロン大学が共同で開発したAI「Pluribus」が、6人対戦のポーカーでプロのプレーヤーを破るなど、AIは不完全情報ゲームでも人間を上回るようになりましたが、完全情報ゲームに比べるとまだ苦手だとのこと。



ついに6人対戦のポーカーでAIがプロのポーカープレイヤーを打ち負かす - GIGAZINE





FacebookのAI研究者であるノーム・ブラウン氏とアントン・バフチン氏によると、AIが不完全情報ゲームを不得手としているのは、AIが持つ「強化学習(RL)+Search(検索)」というアルゴリズムが不完全情報ゲームでは機能しないからとのこと。



AlphaGoなども採用している「RL+検索」アルゴリズムは、特定のアクションが選択される確率に関係なく、各アクションに固定値を割り振って計算してしまう傾向があります。チェスのようなゲームでは、プレイヤーが頻繁に使う手かそうでないかにかかわらず妙手は妙手、悪手は悪手なので、この問題はあまり表面化しません。しかし、ポーカーでは「ブラフ」を頻繁に使うとハッタリが読まれてしまうように、特定のアクションの価値は使用頻度によって上下するため、アクションが選択される確率が非常に重要になってきます。





そこで、Facebookが新たに発表したAI「ReBeL」は、各プレーヤーが持ちうるさまざまな「信念(belief)」の確率分布を計算してアクションを決定するようにしました。その結果、ReBeLはポーカーで最もポピュラーなルールであるテキサス・ホールデムで、カーネギーメロン大学が開発したポーカーAI・Baby Tartanian8など2つのポーカーAIを打ち負かし、人間のトッププレーヤーをも上回る成績を収めることに成功したとのこと。また、相手のウソを見抜くことが要求されるサイコロゲームであるLiar's diceでも、ナッシュ均衡に近い結果を示し、ポーカー以外の不完全情報ゲームでも強みを見せました。



ブラウン氏らは、「ReBeLはこれまでのAIに比べて、与えられる情報がはるかに少ない状況下でも、超人的なパフォーマンスを見せました。これは、普遍的で幅広い用途を持つテクノロジーを開発する上で大きな一歩であり、不正行為の検出やサイバーセキュリティのような現実世界で活躍するAIの開発に向けた前進であると考えています」と述べました。