扑克中的数学63：全下或弃牌游戏（3）

《The Mathematics of Poker》中文翻译

The Mathematics of Poker.jpg 感谢梅有钱（梅老板）的合作翻译（这一篇都是他翻的！）

牌例 12.3 全下或弃牌无限注德州扑克

双方有相同的S单位筹码。

双方随机各一手牌。

不是庄位的玩家（被称为防守玩家或者X）放一个单位的大盲。

庄位（被称为进攻玩家或者Y）放0.5个单位的盲注，并且首先行动。

进攻玩家可以要么全下S单位，或者弃牌，也就是放弃小盲。

如果进攻玩家全下，那么防守玩家可以跟注，可以弃牌。

如果摊牌，那么桌面牌全部发出来，最后强牌玩家获胜。

这里我们考虑逻辑上拓展一下之前考虑的全下或弃牌游戏。然而，德州扑克的手牌不能保证完美地[0,1]分布结构；没有任何牌在翻前会是接近0的价值，即使AA也只是对上随机手牌有接近80%胜率。另外，手牌价值并不直接；这个可以通过非常经典的打赌来体现。比如某鲨鱼挑出了AKo，22和JTs三手牌，让对手先选择，自己从剩下的2手牌里选。我们可以很简单地穷举这个游戏来分析。在此之前，我们觉得先考虑所有的极端情况也会非常有趣（比如筹码量非常大，或者筹码量非常小）。

在之前的讨论中，我们提到了一个技巧：虚拟玩法。我们已经非正式运用了这个技巧，并且它在计算机解决博弈论问题中非常有用。学术界里关于这个话题非常多了，但是我们这里只总结最基本的概念。就是，如果我们有个游戏和一个“死敌”策略（也就是当给出一个对手策略，可以返回最大剥削的策略），我们可以这样找出最优的策略。

这个过程相对比较直接。我们先假设每个玩家有个候选策略；这可以是任何策略，尽管多数时候我们会做一个合理的猜测，从而让策略收敛更快。假设我们有2位玩家A和B。我们可以为他们各自给出一个候选策略。然后我们计算当A使用候选策略时，B的最大剥削策略。随后我们混合用一定权重混合最初候选策略和最大剥削策略。这个混合权重会是一个序列并且在最后收敛到0，但是会体现出策略发展的过程，比如谐振序列1/n。

所以混合过程看上去就像这样，假设m是现在的混合权重。对于每个可能的决策点，我们都混合旧的策略Sold和新的最大剥削策略Snew:

当我们循环使用这个虚拟玩法，数学上可以证明我们的策略在足够的循环之后最终会收敛到最优策略。通常“足够”是一个可以实现的数字，所以使计算机解决起来非常有效。

非常大的S

当筹码量非常，非常深时，双方显然只会玩AA。进攻玩家不能有利可图地全下任何牌，因为防守玩家可以只用AA跟注来战胜他。但是，当我们渐渐减小筹码量时，进攻玩家必须增加额外的手牌到全下范围，否则会损失偷盲赢率。显然，如果进攻玩家不混入任何其他的牌，那么防守玩家不会跟注除了AA之外的牌（220/221的时候）。因为跟注任何除了AA之外的牌在进攻玩家全下AA时都会损失惨重，防守玩家会贯彻这个策略直到进攻玩家做出调整。

在超过某个筹码量时，进攻玩家会无法通过全下额外的牌来盈利，因为他会输太多，哪怕对手只跟注AA。你可以想象如果下一手要加入的牌是KK（当筹码量略浅时），这是公认的第二好的牌；然而，事实并非如此，因为在如此高额的情况下，去牌效应更为重要。那些包含A的手牌，即使他们比其他对子而言相对AA更差。但是因为他们减少了对手AA一半的组合，所以比KK有更高的赢率。在全下或弃牌游戏里，面对一个只会跟注AA的选手，ATs是最好的牌。我们可以通过简单评估每手牌对于这个策略的赢率来找到。

如果进攻玩家全下ATs（增加的第一手牌，正如我们即将看到）在一个2000的筹码量，他的赢率是：

差不多每次全下损失大概2个单位。我们可以用这个公式来计算出ATs开始盈利的筹码量x，如果对手只用AA跟注：

另它等于0：

所以当筹码量是833.25时，进攻玩家可以全下ATs。对于任何比这个深的筹码量，只有全下AA才是有利可图的。在刚好这个大小时，ATs实际上全下和弃牌无差别；进攻玩家可以利用任何比例混合ATs。

现在让我们从防守玩家的角度来考虑，一旦进攻玩家开始全下ATs和AA。它可以跟注一些额外的手牌么？除了AA的手牌在对抗{AA,ATs}时最好的实际上是AKs，有41.442%的赢率。如果防守玩家开始跟注AKs，实际上他在面对这个全下范围是输钱的。一旦筹码量到了833.25，进攻玩家的策略会从{全下100%AA}变成{全下100%AA和100% ATs}。这里没有一个从1%ATs开始递增的过程；反之，这里他会全下所有的ATs更加有利可图。

这个有趣的现象类似物理中的物态转换。在某个温度时，物质会突然从固态转换到液态，物质在进入这个温度的一分钟里会有巨大的改变。这是因为均衡的状态会因为系统中一个微小的改变而发生巨大变化。这个即使在非常简单的系统里，即使一维f（x）的改变，也会导致最小的状态改变。同理，我们可以认为这里底池大小和筹码深度在游戏里类似温度——随着我们增加比例，游戏变得更加温暖。而盲注0.5和1，以及筹码量800是一个非常低温的游戏。当然，盲注为0（会发现每手牌都弃牌也是最有之一）会是类似绝对零点的温度——哪里没有任何动作。

提高一点点的游戏温度，我们降低筹码量到接近833.12。这会带给我们下一手全下有利可图的牌，差不多就是A5s。（A5s对抗AA的赢率是13.331%）。当ATs变得有利可图是，我我们简单把所有组合都加入进攻玩家的全下策略。但是当我们增加手牌时，防守玩家迟早会发现跟注其他手牌会有利可图。

对于防守玩家而言，对抗这个范围{AA,ATs,A5s}赢率最好的手牌是AKs——而他实际上在面对这3手牌组成的全下范围时还是领先的（50.9%）。所以如果进攻玩家开始全下AA, ATs, A5s, 那么防守玩家可以用跟注AKs来对抗，这样进攻玩家就会输钱。而进攻玩家如果只是简单地去掉A5s，那么对手可以回到只跟注AA来让对手失去赢率。所以进攻玩家必须找到一个混合比例，让他可以最大化利润的同时，应对对手任何可能的策略。这个过程，就是他使防守玩家跟注AKs无差别的过程。

我们假设筹码量刚好是833，这里刚好比阈值833.12热一点点使A5s变得有利可图。我们同样也考虑双方策略发生时赢率的变化（防守玩家）。