【超上級編】GTO part1 〜はじめてのゲーム理論〜

今回から全3回でGTO(Game Theory Optimal)の基本を解説していくね。できるだけ数式は使わず、身近な例とイラストで説明してみたよ。
具体的にGTOのこれこれが知りたい!っていう人はGTOのQ&A集(執筆中)を見てみてね。

 

ポーカーはどこで勝ち負けが決まるのか

ねえ、チンアナゴちゃん。人はいつ、どんなときにポーカーで勝つんだろう?「ポーカーで勝つ」って、結局どういうことなんだと思う?

え?ヤブから棒だね。うーん・・・ストレートみたいな強い役ができて、大きなポットが取れるときとか?

確かにそういうシチュエーションはあるよね。でも、長い目で見ると相手にもストレートが来るはずだよ。

うん、そりゃそうだよね。

長いスパンで見ると、ハンドやポジションは結局みんな平等なんだね。でも、アクション(とベットサイズ)だけはプレイヤーが選択できるんだ。

そっか、プレイヤーはベット、レイズ、チェック、フォールドだけで戦ってるんだもんね。

そうそう。ということはだよ、ポーカーを長期的に見たとき、「相手に対して有効な(期待値が高い)戦略を取ること」が勝ち負けを決めるんだ。当たり前に聞こえるかもしれないけど、ゲーム理論を考える上でこれは大切なことなんだ。ひとまず押さえておくね。

うーん、ところでさ、アクションはわかるんだけど戦略ってなんかピンとこないなあ。

例えばこんなのはどうかな。相手のリバーのベットがトップペア+のような強いハンドだけだとすると、自分はトップペアよりも弱いハンドはフォールドして、ナッツ級の強いハンドだけでコールやレイズをすればいいはずだよ。
そうすれば勝っているときは利益を大きくして、負けているときは損失を小さくすることができるんだ。

そっか、そうすればリバーが来れば来るほど、自分はどんどん勝っていきそうだね。

相手は「リバーのベットにバリューしかない」という不利な戦略を使っているんだね。ポーカーはゼロサム・ゲームだから、もし相手がミスをして、そのミスをうまく突くような戦略を使えば、自分はその分だけ得をすることができるよ。

でもさ、相手も戦略を変えてくるかもよ?「そうか、リバーで全くブラフしてないから相手につけ込まれてるんだ!」って気づいちゃうかも。

うん、そうだよね。相手は戦略を修正してくるかもしれない。でも、その相手の修正版の戦略に対して、こちらもさらに有効な戦略に変えることができるんだ。

そしたらお互いにどんどん戦略を変えていって・・・あれ?キリがないんじゃない?

ところが終わりはあるんだ。戦略を変えても互いにこれ以上利益が増やせないような状態がポーカーにはあるんだよ。

戦略勝負の終点があるってこと?

うん。その状態を数学ではナッシュ均衡というんだ。次の章から詳しく説明していくね。

 

GTO:ナッシュ均衡に基づいたプレイ

さて、まずはナッシュ均衡の定義を改めて見てみようか。

  • ナッシュ均衡:
    互いのプレイヤーが戦略を変更してもそれ以上期待値を上げることができない状態・あるいはその戦略の組み合わせのこと

f:id:Poker_JAWS:20181213054208p:plain

うーん、なんかフワッとしてるなあ。お互いに戦略を競争してたはずなのに、いきなり「はい、ここから先は戦略を変えても期待値は増えません」って言われても・・・。っていうか、そんな状態になったらもう勝ち負けとか無いんじゃないの?

鋭いね、そのとおりだよ。いろいろ疑問はあると思うけど、一つずつ説明していくから安心して。

ふーむ、いろいろ気になることはあるけど、まずは話を聞かせてもらおうかな。

さっきも説明したとおり、ポーカーは相手に対して有利な戦略を使うことで初めて利益が出る(期待値が上がる)んだ。ゲーム理論ではこれをエクスプロイト(exploit)というよ。「搾取」という意味だね。

搾取って・・・。まるで大地主か悪代官だね。

すごいストレートな言葉だよね。それはともかく、ポーカーにはお互いにそれ以上エクスプロイトできないような戦略の組み合わせがあるんだ。

それがナッシュ均衡ね。

うん。そしてそのナッシュ均衡に基づいた具体的なプレイのことをGTOっていうんだよ。

ねえ、どうしてGTOとナッシュ均衡って名前が分かれてるの?なにが違うの?

実はね、ナッシュ均衡は一つじゃなくて複数あるんだよ。「エクスプロイト合戦の終着点」っていうと、どうしてもただ一つの究極戦略ってイメージがあるけどね。

あ、そうなんだ。

でも、複数あるナッシュ均衡はそれぞれ期待値がバラバラなんだ。もちろんプレイヤーはナッシュ均衡の中でも最も期待値の高いものを選ぶはずだから、その期待値最大のナッシュ均衡に基づいたプレイを特にGTO(ゲーム理論最適化)と呼ぶのさ。

なーるほど。

さて、ここまで説明したGTOの特徴をまとめてみようか。

 

GTOの特徴(1)

  • GTO=ナッシュ均衡に基づいたプレイ
    =ポーカーの最もスタンダードなプレイ。すべての戦略の基準点。
  • GTOはエクスプロイトされない
    =GTO以外の戦略は、何らかの戦略によってエクスプロイトされる可能性が常にある。
  • GTOは複数あるナッシュ均衡のうち、常に期待値が最大のものを選択する。
    =ゲームのプレイヤーは常に期待値を上げるような選択をするから。

 

ふむ、エクスプロイトされないような戦略があるってことはよくわかったよ。そろそろ具体的なGTOが見てみたいなあ。

OK。じゃあ次は具体的なスポットのGTOを一緒に見てみようか。GTOをどう解釈すればいいのか、詳しく説明していくね。

part2へ続くッ!

PAGE TOP