扑克人社区的内部群从今天下午开始一直讨论关于GTO是否EV=0,GTO是否能盈利。

讨论一直蔓延到晚上。

我作为吃瓜群众,竟然失眠了,索性把个人的部分思考和讨论的部分结论写出来。


一、从GTO的一个经典场景说起

假设有玩家X和玩家Y,X和Y单挑,X使用GTO策略而Y没有。

牌局进行到了河牌,河牌底池大小=10000,X的bluff range和value range之比=1:2,而X做一个底池下注(为简化假设Y的后手筹码就是10000),显然这里X的河牌行动是GTO的,无论Y call还是fold,Y的EV是无差别的,Y的EV=0,而X的EV当然也没区别,X的EV=10000。


这里我们先得到一个最基础的结论1:孤立看一个GTO行动,GTO的策略可以是正EV的(比如上面给出的底池有死钱的场景)


二、那么我们要进一步问了,为什么会这样?

这里涉及两个原因:

1、X玩家和Y玩家的翻后范围可能是不对称的(——梅老板一针见血指出了这点);

2、即使X玩家和Y玩家异地而处,翻后范围对称,手牌、筹码量、位置(及行动顺序)都互换,这手牌的进程刨去GTO包含的随机因素,这手牌每个环节行动也会不一样——Y玩家可能到河牌拿不到10000那么多的EV,因为处理的不同,Y和X之间有EV差,这里隐含的意思是,X的策略获利了。 

——看出来了吧,没有对比就没有伤害!


三、那么我们进一步问了:最初的河牌场景中,X玩家行动后,Y玩家的行动是等价的啊——貌似X玩家每给Y玩家犯错的机会,Y玩家不管GTO还是不GTO,他的EV都是0;那么往前推导——转牌Y玩家行动无差异、翻牌Y玩家行动无差异、翻牌前Y玩家应该也无差异——那么就无差异了呀?差异到底哪儿来的?

实际上这种想法是不对的,有两个地方是差异来源:

1、总有Y玩家先行动到时候——HU轮流先行动呢,这里差异不就出现了吗?

2、X玩家采取GTO策略,其实不单单给了Y玩家EV=0的行动选择——事实上,X玩家给了Y玩家两类选择:第一类EV=0,第二类EV为负;这里EV=0的行动可能是GTO的,也可能是非GTO的,但是EV为负的选择一定是非GTO的。如果Y玩家也采取GTO策略,那么当然他只会选择EV=0的行动,但是,Y玩家并没有GTO,所以他也有可能选到了EV为负的行动。——这就是错误的来源,GTO策略在这种情况下自动获利了。


那么我们要问了,Y玩家有可能选EV为负的行动吗?有可能的,因为扑克游戏行动的复杂性——牌面结构、筹码量、手牌范围、下注尺度、频率,这一类EV为负的行动可以很隐蔽,让人难以觉察,甚至顶尖的牌手也会犯这样的错误——比如电脑AI Libratus以显著优势战胜人类选手。

如果没有搞错,AI Libratus采取的是GTO策略(貌似其机制的论文还没有公布,暂时无法求证:见田渊栋博士的专栏https://zhuanlan.zhihu.com/p/25099173),那么可以看出人类不但离围棋之神很远,离(单挑)扑克之神也很远。

 

关于EV为负的行动可以举一个简单粗暴的例子:

X玩家和Y玩家单挑,X玩家采取GTO策略,100bb筹码深度,而Y玩家无论拿到什么牌,全下100bb,那么显然,

当X玩家在按钮位的时候,他可以正常open/limp/fold,无可挑剔地采取GTO策略,等Y玩家的行动,但是当Y玩家allin 100%,X玩家肯定可以用一个call range碾压Y玩家。

这里X玩家依然是GTO的,GTO跟频率有关系;而我们看到Y玩家在主动作死。


四、综上

尽管很多时候剥削策略盈利最高(同时存在被反调整剥削的风险),但是GTO并不能说是纯粹的玄学或鸡肋。

GTO是很牛X的无敌防守策略,只要对手不是GTO的就有犯EV为负的错误的可能(当然也可能运气无敌好,虽然不完全GTO,但是所有选择都是EV=0不犯错),GTO的策略就能获利。

——虽然以我们大多数人的水平之低用不到也用不了这样的武器。




——喝了2两梅子酒也睡不着的吃瓜群众写于4:45am,2017.2.8


----


Libratus的论文已经挂出来了

http://www.pokerren.com/q/2928

2017.2.9

举报

+1

讨论区

0
hitlee

首先gto本质意思是指最优策略。那么假设一个情况,我在知道对手永远只出布的情况下,我的石头剪刀布gto是什么?1.只出剪刀 2.石头剪刀布各占33% 一个ev为无穷大,一个ev为0 很明显gto或者说最优策略是1。那为什么很多时候会提到2,2是通过研究游戏数学本质,在数学上得出的一种最优策略。 那为什么两种最优策略不同?其实是因为两种游戏数学本质就不同。因为1这个策略前提里还包含了对对手策略的预测(测量)(假设)。 手机打字太麻烦。 直接说结论,gto ev可以大于0 等于0 小于0。 因为他只指当前的最优策略。如果你能看到对手底牌,那你的gto策略当然是你赢得最多的那个策略。 如果你仅仅知道游戏规则,那么根据游戏的数学模型推断的平衡策略通常为gto,零和游戏ev为零 负和为负。如果你已经玩到河牌,但你之前犯了很多错误,那你的gto策略就是当前信息下你输的最少的策略。 上面三种情况,都不是一个数学模型,因为发出几张牌,你对对手的倾向的策略,都会改变游戏的数学模型,这就是不完全信息博弈。 为什么大家都误以为第二种情况ev为0时就是指的gto策略,那是因为只考虑了游戏本身的信息。

#1
2017-02-10 03:22
回复 举报

分享

关注扑克人微信公众号