ソフトウェア

ついに6人対戦のポーカーでAIがプロのポーカープレイヤーを打ち負かす

by CliPhotography

ポーカーは相手の手札が公開されていない状態で戦う「不完全情報ゲーム」であり、相手の持ち駒といった全ての情報が開示されている囲碁や将棋などの「完全情報ゲーム」とは異なります。そんなポーカーのトッププロ相手に、Facebookとカーネギーメロン大学が共同で開発したAI「Pluribus」が、6人対戦のポーカーで勝利したとのことです。

Superhuman AI for multiplayer poker | Science
https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

Facebook, Carnegie Mellon build first AI that beats pros in 6-player poker
https://ai.facebook.com/blog/pluribus-first-ai-to-beat-pros-in-6-player-poker/

Humans Fold: AI Conquers Poker's Final Milestone - Scientific American
https://www.scientificamerican.com/article/ai-conquers-six-player-poker/


カーネギーメロン大学のツオマス・サンドホルム教授らの研究チームは、2017年にも「Libratus」というAIを開発し、ポーカーのプロ相手に12万戦を行いました。その結果、Libratusは見事にプロ相手に勝利を収め、不完全情報ゲームであってもAIが高いスキルを持った人間相手に勝利できることが証明されました。

人工知能と4人のプロとのポーカー対決は人工知能が完全勝利 - GIGAZINE


しかし、2017年に行われた対戦はあくまでもポーカーをAI対人間が1対1で行ったものであり、一緒にプレイする人間がもっと増えた場合、AIが勝利を収めるのは難しいとサンドホルム氏は考えていたとのこと。2人対戦のポーカーは、囲碁・将棋・チェスと同様に、1人の勝者と1人の敗者のみが存在します。一方、複数人対戦のポーカーになると、複数の意志決定プロセスや手札を考慮する必要があり、AIにとっての難易度が向上するそうです。

Libratusとポーカープロとの対戦から2年後の2019年、Facebookと協力して新たなポーカーAI「Pluribus」を開発したサンドホルム氏は、改めてポーカープロを含めた6人での対戦に挑戦しました。

by World Poker Tour

LibratusやPluribusがプレイしたのは、日本で主流の5枚の手札を山札と交換する5ドローポーカーではなく、世界で最も主流なテキサス・ホールデムというルール。テキサス・ホールデムでは個々のプレイヤーだけが使用できる2枚の手札と、全てのプレイヤーが使用できる5枚の場札、計7枚のカードを組み合わせてポーカーの役を作ります。

また、プレイヤーはカードが配られるたびにアクションを行い、他のプレイヤーとの駆け引きを行います。アクションには「チェック(チップを賭けずに他のプレイヤーのアクションを待つ)」「ベット(チップを賭ける)」「レイズ(他のプレイヤーのベットに対し、さらに多くのチップを賭ける)」「コール(相手のベット、レイズに対して同額のチップを支払いゲームに参加する)」「フォールド(相手のベット、レイズに対してチップを払わずにゲームから降りる)」といったものが存在します。

場札が存在するために相手の役の一部がわかっていることや、相手のアクションなどからプレイヤーたちは相手が持っている、あるいは作ろうとしている役の強さを判断し、自身のアクションに反映させていくことが可能。全てが運任せというわけではなく実力が介入する余地があるため、スキルの高いプレイヤーは何度もプレイを繰り返すことで、初心者のプレイヤーよりも高い勝率を収めることができるとのこと。

by World Poker Tour

Pluribusは自分自身のコピーと何度も対戦を繰り返す自己学習を通じ、手札や場札、それぞれのアクションに対するよりよい選択を見つけ出し、戦略を磨いていきました。64コアCPUサーバーを使い512GBのRAMを稼働させ、Pluribusは8日間にわたってポーカーの学習を行ったそうで、一般的なクラウドコンピューティング費用で換算しても、トレーニングにかかった費用はわずか150ドル(約1万6000円)未満。非常に安価でのトレーニングが可能だったと研究チームは述べています。実際にプレイする際も、Pluribusを実行するためのリソースとして2個のCPUと128GBのメモリが使用されていますが、囲碁のトップ棋士イ・セドル九段を打ち破ったAlpha Goは1920個のCPUと280個のGPUが使用されており、Pluribusは非常に少ないリソースで実行可能という特徴があります。

トレーニング済みのPluribusは、まず最初に「人間5人+Pluribus(AI)」の6人対戦を12日間で1万戦も行いました。人間側として選ばれたポーカープロは、過去のポーカートーナメントで少なくとも100万ドル(約1億800万円)以上もの賞金を獲得した経験のあるトッププロであり、15人がローテーションを組んでAIと対戦したとのこと。この15人の中には、アメリカで開催されているポーカーの世界的トーナメント、ワールド・シリーズ・オブ・ポーカー(WSOP)のメインイベントで優勝経験のあるグレッグ・マーソン氏や、サイドイベントの優勝経験者であるアンソニー・グレッグ氏らが含まれていたそうです。ポーカープロたちには1戦ごとに報酬が支払われたほか、パフォーマンスに基づき5万ドル(約540万円)が分配されるなどの動機付けがされましたが、1万戦を終えた結果はPluribusの大勝となりました。

また、「人間1人+Pluribus(AI)5つ」というスタイルでの6人対戦も行われ、こちらではWSOPメインイベントの優勝経験があるクリス・ファーガソン氏や、ワールドポーカーツアー(WPT)で4回もの優勝経験があるダレン・エリアス氏らが人間側に含まれていました。この場合も、やはりPluribusが人間側に対して勝利を収めることに成功し、6人対戦のポーカーにおいてもAIが勝利できることが証明されたと研究チームは述べています。

by Pixabay

ファーガソン氏はPluribusのプレイについて、「Pluribusは非常に手強い相手でした」「どのような手札を持っているのかを特定するのが難しく、薄い利益を得るためのベットが得意でした。いい役を持っている時に相手からチップを得るのも上手かったです」とコメント。また、エリアス氏はPluribusの強みについて、「戦略をミックスする能力」だと指摘。プレイに一定の傾向が見られればプロのプレイヤーはそこを突いて対策できますが、Pluribusは人間には不可能なレベルでプレイングをランダムに分散させることが可能だったそうです。

プロのプレイヤーたちは、Pluribusのプレイには人間のプレイヤーを驚かせるようなものもあったとしています。たとえばPluribusは「ドンクベット(相手のベットにコールして終了した次のアクションで、相手に先んじてベットを行うこと)」をプロよりもはるかに頻繁に行いましたが、一般的にドンクベットは悪手だとされているとのこと。Pluribusと対戦したマイケル・ガグリアーノ氏は、「ポーカーAIと対戦し、その戦略を目にすることは非常に魅力的でした」「特にベットやレイズのチップ額について、人間のプレイヤーが全くしないプレイがいくつかありました」と述べました。

Pluribusの共同開発者であるFacebookのノーム・ブラウン氏は、「これは2人対戦でもなく、ゼロサムゲームでもないゲームにおいての最初のベンチマークです」とコメント。相手の思考が不明な状態での判断を迫られる状況はポーカー以外にも、サイバーセキュリティ、金融取引、ビジネスの現場など、さまざまな分野が考えられるため、ポーカーを超えた多くの現場にPluribusのノウハウが生かされる可能性があると研究チームは考えています。

by geralt

この記事のタイトルとURLをコピーする

・関連記事
不完全情報ゲームのポーカーで人間を倒したAI「Libratus」が採っていた戦略が論文で公開される - GIGAZINE

「ポーカーで人間を打ち負かしたAI」が世界を変える、天体物理学を愛するポーカーのプロが語る可能性とは? - GIGAZINE

ポーカーで勝つためにカードが何かを一発で透視するいかさまスマートフォンとは? - GIGAZINE

「AI対ヒト」のポーカー対決で人工知能が再び勝利、6人を相手に5日間の戦いを制して3000万円ゲット - GIGAZINE

人工知能と4人のプロとのポーカー対決は人工知能が完全勝利 - GIGAZINE

作家でありながら大金を稼ぐプロのポーカープレイヤーになった人物 - GIGAZINE

1世紀以上もアメリカ人に愛され続ける絵画「ポーカーをする犬」とは? - GIGAZINE

in ソフトウェア,   ゲーム, Posted by log1h_ik

You can read the machine translated English article here.