Dong kim：人机大战，我从AI身上也学到了很多（中）

Q：意味着你可以通过模糊的下注量去迷惑它。

Kim：对的，就是这样。实际上战术有两种，

一是用非常疯狂的加注量。但是这显然不是一个好策略，AI不会出现问题，因为AI知道这样并不是很好。比如你在赌场里玩，而有人突然加注20个大盲，如果底池里没什么的话，我们知道这非常糟糕。

第二就是这个抽象的下注大小，因为尽管AI很优秀但是很难面面俱到。

有趣的是，随着比赛的进行，他们不断引入新的下注大小。我知道他懂得25%底池下注，也经常这么做。但是在第五天和第六天开始使用26%底池下注。同时也学会了24%，23%底池下注。因为人类一直这么做，所以他学会了这些下注大小。他会觉得这样不错，就这么做。其实想想还是挺恐怖的，AI在用一个你曾经使用过的下注大小。

Q：正如我们从其他媒体所获悉的，AI每天都在进化，并且修复漏洞，你的想法是怎么样的？能给我们一些例子么？

Kim：我认为这正是我们完败的的主要原因。我们首先研究出一套策略，然后观察AI当时的策略，进行剥削。在研究了一段时间之后，我们会回来实施。后来我们发现自己本应在对手弃牌很多的地方诈唬，或者在对手永远不弃牌的地方价值下注，所以我们的策略实施的并不出色。

我不得不承认，每个我找到的漏洞都在一天内被补丁修复了。他们修复了漏洞，或者甚至连CMU的开发人员都不清楚，要么是AI自我修复了漏洞（这是我们看来最有可能的），要么这只是样本大小和波动的原因。

Q：但肯定不是CMU找到的漏洞，对吗？

Kim：对，他们完全不懂扑克。这是最令人印象深刻的地方，他们完全不懂扑克。

Q：网上流传的一手经典牌局，在河牌出花面时你用顺子抓了AI一个近两倍底池的河牌诈唬，当时你的思考过程是怎样的？在此次对战过程中，还有哪些让你印象深刻的牌局？

Kim：是的，如果你一直关注的话，会发现AI有很多巨大的下注让我们非常难以抉择。你说的是那手牌比较特别，因为当有人河牌下注2倍底池时，我会想这里最差的价值下注牌是什么，对于人和AI而言，他们都会知道他们的手牌相对底池而言有多少价值，所以他们会选择要么过牌-加注，要么下注一个价值范围。比如AI永远不会用一个中对，期望我用更差的牌跟注。

而在这里，一个顺子以上的牌力，坚果顺，小同花或者更好的牌，考虑到这点，我想到手中有同花牌，所以AI就会有比较小的概率有同花，于是决定跟注。我觉得如果我有对子的话，对手就更少会用对子进行诈唬。如果你对手有对子的话，他们可能会在某些时候过牌。所以这里更像是在诈唬。这里我觉得要么就是一个比小花更好的牌，或者就是纯空气。我觉得这里不太会有更差的顺子，三条和两对。这就是我的思考过程。

Dong Kim06.png

Q：你刚才提到了AI会在小底池下一个重注，这在人类游戏里并不常见。AI可能认为这是他最佳的策略，也会混入一些诈唬。你认为这是一个突破点么？

Kim：我并不这么认为，我觉得真正意义上的平衡打法会包括这种情况，但是会非常棘手。只有当人类认为这是个非常糟糕的策略时，才会成为突破点。比如说，当AI的策略被人类认为非常糟糕的时候，国际象棋里，或者围棋里，有些开局被人类看来非常糟糕，但是AI认为不错。开发人员因为不是职业国际象棋/围棋选手，所以他们信任AI。

说实话，CMU这些天才（AI研发人员）打牌非常糟糕，但是他们相信AI的算法。我觉得这样很好，对于人类玩家而言，他们必须非常精确才能实现这样的打法。他们如果稍微下注过多或者过少，诈唬不足或者价值下注不足，那么这个策略就会变得非常糟糕。所以这一些都会回归到精准地执行力上。人类总是不如计算机精准。

Q：AI的每一个动作都要通过精密的推理、计算，你是否认可AI的采取的都是最佳策略？这种策略跟现在盛行的GTO策略有何不同？

Kim：我确实相信他能精准地执行策略但这并不一定是最好的策略。当讨论策略的时候，会有一些诈唬，一些价值下注，AI会完美地执行，而人类在实时处理的时候会忘记一些东西，或受情绪的影响所以不如AI完善。它会精准地执行策略。但是我不觉得他打得接近GTO或者说纳什均衡。

我跟CMU的人讨论过，他们觉得AI距离纳什均衡有差不多15-20bb/百手的偏移。当我听到这个数字的时候，我觉得比我想象中近了很多，而他们觉得他们应该更接近一点。

这是个非常复杂的游戏，AI试图实现的是均衡，也就是找到GTO，但是实际上他并不是GTO。CMU故意引导了他不GTO，而是“safe exploitation”（安全剥削策略），意味着如果他发现了一个漏洞，他就会利用，而当我们发现的时候，他就会回到GTO策略。

其次是当AI计算出海量策略时，他会有一个非常复杂的翻前策略。比如他会limp，也会min-raise，也有2.5x和3x的翻前加注。他认为必须要做这3，4个动作。这里会占用非常大的计算资源，因为在游戏树里，最复杂的就是第一个动作，这里所有的后续动作开始开支散叶。这里最重要的就是最优地使用他们的计算资源和时间。相对于有限的资源而言，在比赛中，引导AI去寻找合理而又不太复杂的策略。他们有非常多数量的手牌记录使用了2.5x的大小，他们认为这是最好的大小，但是仍然需要混合。所以比起有一个巨大的游戏树，他们设置了参数只做2.5x加注。这里显然不GTO了。

Q：你觉得AI在6max或者FR桌上表现会如何？将来会如何？

Kim：我觉得AI想战胜多人桌非常难。对于限注德州而言，只有固定的下注大小，每条街只能有4次加注；而无限注德州扑克里，你可以每次最小加注，重复20次。所以在无限注德州里，游戏树会异常庞大。

这里控制了一些常规的变量，比如每次筹码量都被重置到200大盲。只有2个玩家。AI做的是会预测对手的行动。而在多人游戏里，首先每个人的筹码量不会被重置到同样的大小。这对AI而言是最大难题

其次需要解决3人策略，然后4人策略等等。然而3人策略需要假设其他2个对手的行为。所以可能发生的情况是AI决定在翻前加注，SB做了一些错误的决定，BB也做了一些错误决定。即使他们2人都做了一些糟糕的决定，也就是负期望。AI现在可能会因为这样错误计算，做出一些糟糕的决定。这里会占用非常巨大的计算量来完成计算，花费上百万美元来训练策略，完成AI。CMU的人会说多一个人AI会花更多的钱，花费更多时间。

人类还有机会在AI身上夺回胜利吗？

Q：此次人机大战你学到了一些新的策略吗？对抗人类玩家，这些策略有效么？

Kim：有的，我还没有机会深入去学习发生的一切。在AI挑战结束之后，我想休息一段时间，打会牌，也许下周我会去深入了解一下所有的一切。但是我计划里已经有了一些想要去了解的方向。成为职业扑克选手就包括了，从你见过的策略里选择应用在自己的游戏中，并不意味着要使用所有的。在深入学习了之后，我有自己的打法。找出那些东西，还是很令人兴奋。

Q：对抗AI和对抗人类顶尖选手你认为最大的区别是什么？

Kim：最大的区别是AI的执行力非常强，人类不同，比如说，我们假设桌上有3张方块，第4张牌还是方块，河牌是空白。那么桌上一共四张方块。大多数玩家不会用除了方块A或者别的坚果同花在单张花面下重注，而AI会诈唬，我也见到了。AI在翻牌下重注，我听花跟注，转牌继续重注，我成花。这里非常奇怪，因为人类不会这么做。AI在会在河牌下注非常大，我记得是用空气全下而人类不会这么做。

Q：你认为人类还有机会赢AI么？

Kim：我相信会有机会的，但我不能保证能战胜，因为我的队伍表现糟糕。从我的角度看来，如果所有东西都是最优的，我还可以使用平时惯用的软件，我觉得自己的胜率会提高。

Q：如果人类还要和AI对战，你有什么想法么？建议？我觉得你刚才提到了一些，还有什么么？

Kim：我觉得会更加难以获得胜利，当我回答上个问题时，是假设我们再次与Libratus对战。AI和你新买的IPHONE很像，或者新的笔记本，每年都会有所升级，不光是升级更好，也便宜了。CMU和IBM战胜了Kasparov的设备价值百万，甚至十倍。但是现在也许一台IPHONE就可以战胜Kasparov了。

20年并不是一个很长的时间，而在两年里，如果他们的唯一工作就是战胜世界上最好的玩家，而我的工作是战胜这个AI。我觉得我可以跟AI保持差不多。

（追问：如果你重新组队的话，你会选谁？）

Kim：这很难说，因为这些人都是我的好友。我很想看到Doug Polk，他不仅是我多年的好友和导师，目前他正致力于制作一些资料而没有打太多德州扑克。尽管结果如此，我并不介意和这些人再次合作。我觉得很多原因是因为我们不能使用习惯的工具。我相对于其他玩家而言的优势在于，我有上次与AI比赛的经验。我知道会碰到一些什么，哪些策略会奏效。有那么几天，我不是很赞同队伍里的打法。

（追问：不同意？）

Kim：对，那几天的策略是在BB再加注80%。可我不会这么做。所以他们输了很多。无论如何，如果我们尝试的话，我相信当时有可能战胜AI的。

（以上采访内容由底牌TV、德研社、扑克人社区三家国内权威扑克机构提供）

Dong kim：人机大战，我从AI身上也学到了很多（上）

Dong kim：人机大战，我从AI身上也学到了很多（下）