扑克中的数学58：警察与强盗

《The Mathematics of Poker》中文翻译

The Mathematics of Poker.jpg 感谢梅有钱（梅老板）的合作翻译（这一篇都是他翻的！）

在直接讨论扑克之前，本章中我们最后讨论一个简单游戏，警察与强盗。在这个游戏里，一个玩家是警察，另外一个玩家是强盗。警察有2个策略选项：巡逻或者不巡逻。强盗也有2个策略选项：抢商店，或者不抢。如果强盗决定抢，而警察决定不巡逻，那么强盗赢1个单位。反之，则损失1个单位（因为警察巡逻发现之后会被捕）。如果强盗决定待在家里，那么警察会因为巡逻而损失1个单位，而如果不巡逻则没有损失。因为这个游戏是0和，所以当强盗不抢劫而警察巡逻时会获得1个单位。

这个游戏收益表如下：

为了找出这个游戏的最优策略，我们选择一方。比如考虑警察的策略，与之前一样，警察会选择一部分时间x来巡逻，而其他时间不巡逻。

<抢劫犯，抢劫> = (-1) (x) + (1) (1-x)

<抢劫犯，抢劫> = 1 – 2x

<抢劫犯，不抢> = (1) (x) + 0 (1-x)

<抢劫犯，不抢> = x

为了让抢劫犯的选择不偏不倚，我们令这两个值相等

1 – 2x = x

x = 1/3

所以警察的最优策略是巡逻1/3的时间。

接下来我们考虑强盗，如果他选择x的时间抢劫，那么期望将会是：

<警察，巡逻> = (1) (x) + (-1) (1-x)

<警察，巡逻> = 2x – 1

<警察，休息> = (-1) (x) + (0) (1-x)

<警察，休息> = -x

同上，这里为了让警察的选择不偏不倚，我们令两者相等。

2x – 1 = -x

x = 1/3

所以强盗的最优策略是抢劫1/3的时候。

这两个数值（警察巡逻1/3和强盗抢劫1/3）是这个游戏的最优策略。我们觉得这个游戏可以作为最优策略导致不偏不倚的很好实例。混合策略势必发生如果双方都有能力剥削对手的单纯策略。在这个游戏里，如果强盗采用单纯策略，总是抢劫，那么警察可以用始终巡逻来应对。而一旦警察这么做，强盗可以改变策略成永远不抢劫，如此循环往复。摇摆不停地剥削策略正告诉了我们最优策略一定是混合策略。

这对于零和二人游戏通常是正确的；假设2个玩家X和Y正在研究他们某个游戏的策略。X使用单纯策略A，那么Y通过使用单纯策略B来剥削X，随后X通过使用C来剥削B，之后Y用使用策略D来剥削C。而X对D的最好应对又是A。这个循环剥削意味着X会采用混合AC的策略，而Y会使用混合BD的策略。

如果我们知道对手会混合什么策略进他的最优策略里，我们可以通过解方程是双方不偏不倚来简单地系统性解决这个有许多混合选项的游戏。如果我们不知道对手混合什么，通常这也是常见的，那么我们经常需要猜测对手的策略结构。这个猜测的过程通常被称为参数化，当我们在讨论[0，1]游戏时会重新回顾。

在这个警察强盗的游戏里，因为双方都会使用混合策略，我们知道双方的期望值将会相等。令期望值相等，就让我们找到了这个游戏的最优策略。

这个游戏可能看上去太简单了而且跟扑克不怎么相关；但是正如我们即将看到的，这个游戏跟扑克有着相同的结构和重要特点。

上一篇：人机大战第十一天：AI继续扩大领先优势
下一篇：创新能力可以帮助人类击败扑克机器人Libratus吗？

讨论区

卖血来上网

由衷感谢，对国内水平提高

2017-02-26 23:14

回复举报

讨论区

相关文章

关注扑克人微信公众号

提示信息

错误信息

打赏

举报答案

讨论区

相关文章

关注扑克人微信公众号