Q:意味着你可以通过模糊的下注量去迷惑它。

Kim对的,就是这样。实际上战术有两种,

一是用非常疯狂的加注量。但是这显然不是一个好策略,AI不会出现问题,因为AI知道这样并不是很好。比如你在赌场里玩,而有人突然加注20个大盲,如果底池里没什么的话,我们知道这非常糟糕。

 

第二就是这个抽象的下注大小,因为尽管AI很优秀但是很难面面俱到。

 

有趣的是,随着比赛的进行,他们不断引入新的下注大小。我知道他懂得25%底池下注,也经常这么做。但是在第五天和第六天开始使用26%底池下注。同时也学会了24%23%底池下注。因为人类一直这么做,所以他学会了这些下注大小。他会觉得这样不错,就这么做。其实想想还是挺恐怖的,AI在用一个你曾经使用过的下注大小。

 

Q:正如我们从其他媒体所获悉的,AI每天都在进化,并且修复漏洞,你的想法是怎么样的?能给我们一些例子么?

Kim我认为这正是我们完败的的主要原因。我们首先研究出一套策略,然后观察AI当时的策略,进行剥削。在研究了一段时间之后,我们会回来实施。后来我们发现自己本应在对手弃牌很多的地方诈唬,或者在对手永远不弃牌的地方价值下注,所以我们的策略实施的并不出色。

 

我不得不承认,每个我找到的漏洞都在一天内被补丁修复了。他们修复了漏洞,或者甚至连CMU的开发人员都不清楚,要么是AI自我修复了漏洞(这是我们看来最有可能的),要么这只是样本大小和波动的原因。

Q但肯定不是CMU找到的漏洞,对吗?

Kim对,他们完全不懂扑克。这是最令人印象深刻的地方,他们完全不懂扑克。

 

Q:网上流传的一手经典牌局,在河牌出花面时你用顺子抓了AI一个近两倍底池的河牌诈唬,当时你的思考过程是怎样的?在此次对战过程中,还有哪些让你印象深刻的牌局? 

Kim是的,如果你一直关注的话,会发现AI有很多巨大的下注让我们非常难以抉择。你说的是那手牌比较特别,因为当有人河牌下注2倍底池时,我会想这里最差的价值下注牌是什么,对于人和AI而言,他们都会知道他们的手牌相对底池而言有多少价值,所以他们会选择要么过牌-加注,要么下注一个价值范围。比如AI永远不会用一个中对,期望我用更差的牌跟注。

 

而在这里,一个顺子以上的牌力,坚果顺,小同花或者更好的牌,考虑到这点,我想到手中有同花牌,所以AI就会有比较小的概率有同花,于是决定跟注。我觉得如果我有对子的话,对手就更少会用对子进行诈唬。如果你对手有对子的话,他们可能会在某些时候过牌。所以这里更像是在诈唬。这里我觉得要么就是一个比小花更好的牌,或者就是纯空气。我觉得这里不太会有更差的顺子,三条和两对。这就是我的思考过程。

Dong Kim06.png

Q:你刚才提到了AI会在小底池下一个重注,这在人类游戏里并不常见。AI可能认为这是他最佳的策略,也会混入一些诈唬。你认为这是一个突破点么?

Kim我并不这么认为,我觉得真正意义上的平衡打法会包括这种情况,但是会非常棘手。只有当人类认为这是个非常糟糕的策略时,才会成为突破点。比如说,当AI的策略被人类认为非常糟糕的时候,国际象棋里,或者围棋里,有些开局被人类看来非常糟糕,但是AI认为不错。开发人员因为不是职业国际象棋/围棋选手,所以他们信任AI

 

说实话,CMU这些天才(AI研发人员)打牌非常糟糕,但是他们相信AI的算法。我觉得这样很好,对于人类玩家而言,他们必须非常精确才能实现这样的打法。他们如果稍微下注过多或者过少,诈唬不足或者价值下注不足,那么这个策略就会变得非常糟糕。所以这一些都会回归到精准地执行力上。人类总是不如计算机精准。

 

QAI的每一个动作都要通过精密的推理、计算,你是否认可AI的采取的都是最佳策略?这种策略跟现在盛行的GTO策略有何不同?

Kim我确实相信他能精准地执行策略但这并不一定是最好的策略。当讨论策略的时候,会有一些诈唬,一些价值下注,AI会完美地执行,而人类在实时处理的时候会忘记一些东西,或受情绪的影响所以不如AI完善。它会精准地执行策略。但是我不觉得他打得接近GTO或者说纳什均衡。

我跟CMU的人讨论过,他们觉得AI距离纳什均衡有差不多15-20bb/百手的偏移。当我听到这个数字的时候,我觉得比我想象中近了很多,而他们觉得他们应该更接近一点。

 

这是个非常复杂的游戏,AI试图实现的是均衡,也就是找到GTO,但是实际上他并不是GTOCMU故意引导了他不GTO,而是safe exploitation”(安全剥削策略),意味着如果他发现了一个漏洞,他就会利用,而当我们发现的时候,他就会回到GTO策略。

 

其次是当AI计算出海量策略时,他会有一个非常复杂的翻前策略。比如他会limp,也会min-raise,也有2.5x3x的翻前加注。他认为必须要做这34个动作。这里会占用非常大的计算资源,因为在游戏树里,最复杂的就是第一个动作,这里所有的后续动作开始开支散叶。这里最重要的就是最优地使用他们的计算资源和时间。相对于有限的资源而言,在比赛中,引导AI去寻找合理而又不太复杂的策略。他们有非常多数量的手牌记录使用了2.5x的大小,他们认为这是最好的大小,但是仍然需要混合。所以比起有一个巨大的游戏树,他们设置了参数只做2.5x加注。这里显然不GTO了。

 

Q你觉得AI6max或者FR桌上表现会如何?将来会如何?

Kim我觉得AI想战胜多人桌非常难。对于限注德州而言,只有固定的下注大小,每条街只能有4次加注;而无限注德州扑克里,你可以每次最小加注,重复20次。所以在无限注德州里,游戏树会异常庞大。

 

这里控制了一些常规的变量,比如每次筹码量都被重置到200大盲。只有2个玩家。AI做的是会预测对手的行动。而在多人游戏里,首先每个人的筹码量不会被重置到同样的大小。这对AI而言是最大难题

 

其次需要解决3人策略,然后4人策略等等。然而3人策略需要假设其他2个对手的行为。所以可能发生的情况是AI决定在翻前加注,SB做了一些错误的决定,BB也做了一些错误决定。即使他们2人都做了一些糟糕的决定,也就是负期望。AI现在可能会因为这样错误计算,做出一些糟糕的决定。这里会占用非常巨大的计算量来完成计算,花费上百万美元来训练策略,完成AICMU的人会说多一个人AI会花更多的钱,花费更多时间。

人类还有机会在AI身上夺回胜利吗?

 

Q:此次人机大战你学到了一些新的策略吗?对抗人类玩家,这些策略有效么?

Kim有的,我还没有机会深入去学习发生的一切。在AI挑战结束之后,我想休息一段时间,打会牌,也许下周我会去深入了解一下所有的一切。但是我计划里已经有了一些想要去了解的方向。成为职业扑克选手就包括了,从你见过的策略里选择应用在自己的游戏中,并不意味着要使用所有的。在深入学习了之后,我有自己的打法。找出那些东西,还是很令人兴奋。

 

Q:对抗AI和对抗人类顶尖选手你认为最大的区别是什么?

Kim最大的区别是AI的执行力非常强,人类不同,比如说,我们假设桌上有3张方块,第4张牌还是方块,河牌是空白。那么桌上一共四张方块。大多数玩家不会用除了方块A或者别的坚果同花在单张花面下重注,而AI会诈唬,我也见到了。AI在翻牌下重注,我听花跟注,转牌继续重注,我成花。这里非常奇怪,因为人类不会这么做。AI在会在河牌下注非常大,我记得是用空气全下而人类不会这么做。

 

Q:你认为人类还有机会赢AI么?

Kim我相信会有机会的,但我不能保证能战胜,因为我的队伍表现糟糕。从我的角度看来,如果所有东西都是最优的,我还可以使用平时惯用的软件,我觉得自己的胜率会提高。

 

Q:如果人类还要和AI对战,你有什么想法么?建议?我觉得你刚才提到了一些,还有什么么?

Kim我觉得会更加难以获得胜利,当我回答上个问题时,是假设我们再次与Libratus对战。AI和你新买的IPHONE很像,或者新的笔记本,每年都会有所升级,不光是升级更好,也便宜了。CMUIBM战胜了Kasparov的设备价值百万,甚至十倍。但是现在也许一台IPHONE就可以战胜Kasparov了。

 

20年并不是一个很长的时间,而在两年里,如果他们的唯一工作就是战胜世界上最好的玩家,而我的工作是战胜这个AI。我觉得我可以跟AI保持差不多。

(追问:如果你重新组队的话,你会选谁?)

Kim这很难说,因为这些人都是我的好友。我很想看到Doug Polk,他不仅是我多年的好友和导师,目前他正致力于制作一些资料而没有打太多德州扑克。尽管结果如此,我并不介意和这些人再次合作。我觉得很多原因是因为我们不能使用习惯的工具。我相对于其他玩家而言的优势在于,我有上次与AI比赛的经验。我知道会碰到一些什么,哪些策略会奏效。有那么几天,我不是很赞同队伍里的打法。

(追问:不同意?)

Kim对,那几天的策略是在BB再加注80%。可我不会这么做。所以他们输了很多。无论如何,如果我们尝试的话,我相信当时有可能战胜AI的。


                                                    (以上采访内容由底牌TV、德研社、扑克人社区三家国内权威扑克机构提供)



Dong kim:人机大战,我从AI身上也学到了很多(上)

Dong kim:人机大战,我从AI身上也学到了很多(下)


举报

+1

讨论区

分享

关注扑克人微信公众号