Dong kim：人机大战，我从AI身上也学到了很多（上）

当地时间1月30日，在宾夕法尼亚州匹兹堡赌场里，人工智能（AI）在德扑单挑领域击败了人类顶级牌手。这一事件惊动了整个德扑界。

Dong Kim01.png

AI到来，这让长年征战线上的职业玩家产生了后顾之忧，不过很多人认为AI虽然在单挑中强势，但在人类擅长的六人桌、九人桌中未必能战胜。更有人提出人类军团的实力是否值得质疑等等。

2月19日，德研社、底牌、扑克人社区三家中国权威的扑克机构对Dong Kim进行了一次深度采访。

Dong Kim02.png

（28岁的Dong Kim是全世界最顶尖的的职业牌手之一，早在2015年战胜过AI的前身Claudico）

Dong Kim03.png

采访摘要

关于完败的热议，kim这样回应：

如果给我们提供任何有帮助的东西且在最舒适的环境下与AI对决，我相信人类会赢。

关于策略的实施，kim这样讲解：

我相对于其他玩家而言的优势在于，我有上次与AI比赛的经验。我知道会碰到一些什么，哪些策略会奏效。有那么几天，我不是很赞同队伍里的打法，也没有实施。所以我没有输很多。

关于AI的自我修复，kim这样分析：

绝对不是CMU找到的漏洞，他们完全不懂扑克，是AI在“进化”

关于AI的策略，kim这样解读：

AI试图实现的是均衡策略（GTO），但是实际上他不并全是GTO。CMU故意引导了它不GTO，而是“safe exploitation”（安全剥削策略），意味着如果他发现了漏洞，他就会利用，而当我们发现的时候，他就会回到GTO策略。

面对AI的高速发展，kim这样谈到：

我们需要让机器学会替我们去做决定，即使对于我的职业不利。作为职业牌手，我并没有给世界带来太多的价值，但是这是我力所能及的一件。

kim用实力回应：

在两年里，如果AI唯一的工作就是战胜世界上最好的玩家，而我的工作是战胜这个AI。我觉得我可以跟AI保持差不多。

以下是采访详细内容

Q：此次挑战是如何开始的？你们队伍又是如何挑选的呢？

Kim：首先CMU（卡耐基梅隆大学）联系了Jason，Les和我，想要再比赛一次。而其他的人像Doug和Bjorn他们有事无法参与。随后我们给了教授一份玩家名单，里面是一些我们认为够格的职业选手以及他们的背景介绍，让他去决定。我们很高兴最后教授挑选了Jimmy Chou和Daniel McAulay最后组成了4人队伍，因为我认识他们很久了，彼此相处的很好。

Dong Kim04.png

Q：在人机大战期间，你们每天的比赛是怎么样的流程？每天结束后你们四人是否会共同探讨应对策略？ 效果如何？

Kim：是的（会商讨），通常来说，与其他人分享自己的策略并不是最好的办法，特别是在单挑领域里，再加上本次特殊的赛制还会有利益冲突（这次的奖金结构是基于你比最大的输家多赢了多少），但因为我们都是朋友，所以我们决定一起合作对抗AI，而非各自为战。

而讨论这些我们打过的手牌通常非常有趣的，因为楼上/下的两个人各自打着完全镜像的手牌：讨论AI如何打每手牌，并且了解策略是否有效非常好。

Dong Kim05.png

起初，我们早上9点一起讨论昨日的应对策略，11am-7pm比赛，中途有段就餐时间。

但考虑到午餐时间和实验的公平性，我们每个人必须完成同样的手牌数，所有直到最后一人打完最后一手牌，其他三人才能午休。导致了经常出现三个人等一个人的状况，一等就是一两个小时。这是非常不效率的，于是我们决定跳过午休直接打完。但这对策略而言并没有好处，因为我们没有办法在中途讨论策略的效果了。

平均每天至少打10小时比赛，2小时的学习，并且只能吃1、2顿，直到快结束的时候，才有所改变。由于当时我们一直在输，也失去了继续学习的主要动力，毕竟输很多和输很多很多没什么太大差别，导致有些人没有之前那么勤奋了。

但就我个人而言，直到最后那几天始终是盈利的，所以我还是继续学习着，

Q：你已经参加过两次人机大战，第一次战胜了Claudico，这一次虽然输了，但你是四个代表中成绩最好的，之前的对战经验是否帮助到你这次？

Kim：绝对是的，在2015年Claudico最后结束的时候，我们和他们分享了发生的一切，包括他们漏洞的秘密。今年我也和队伍们讨论了这个，但是我不知道他们听了多少进去。我知道战胜这个东西的关键在于抽象的下注量。所以我的经验是非常有帮助的，对此我毫无疑问。我比其他人会有一些优势。

Q：你觉得本次比赛打120K手牌的数量是否合适？

Kim：还好，但是在学术界，120k手牌并不是非常多。在挑战期间他们告诉我们，计算机在三周内打了上百亿手牌，而跟我们只打120k手牌。

这是一个什么样的AI？

Q：你对抗过的两个AI，Claudico和Libratus，最大的区别在哪里？

Kim：当然有很大的区别，Claudico实际上是非常优秀的AI，尽管人们认为很糟糕。实际上并非如此，我觉得他可以战胜95%的单挑玩家。只是在执行上有些漏洞，但并不是非常难对付的那种，他会过多弃掉一些牌，或者诈唬不足。

虽然Libratus也会这么做，但是区别在于许多时候更合理了，会让我们处于更难受的局面。他弃牌更少了，下注更多了，加注也更多了，下注也更大了。总体而言是一个更加优秀的AI。

从AI发展的角度而言，我了解一些，他们是重新设计了算法，没有用到任何Claudico的东西，他们没有用Claudico去测试Libratus，但是他们用Titanium9去测试了Libratus。Titanium9大概赢Claudico 9bb/百手，而Libratus大概赢Titanium9 5-6bb/百手。你不能简单把这两个数相加，其中有很多相关的因素。

Claudico使用对应策略，被称为终局结算程序（end game solver），也就是AI停止的地方，重新精确映射游戏树，Libratus也有这个，但是在转牌就开始了，简而言之其实有三种模式，或者称之为三块：原始的策略树，自适应系统，也就是学习我们是怎么打的，并且重新计算策略，用不同的方式去打牌。

Q：你刚说上次战胜Claudico的关键是抽象下注量，那么这次还管用吗？

Kim：这个AI并不是一个无限注德州AI，实际上是个多种限注AI。

所以抽象的下注量就是他们设置了参数，引导AI调整至7-10个下注量。抽象的下注量就是介于这些之中的。比如AI知道1倍底池下注是什么，1.5倍底池下注是什么。但是他不知道如何面对1.25倍底池下注。所以这里是AI最大的问题。这也是我一直尝试经常去攻击的地方。

我不会把他当作一个真实的人，我并不确定他会如何应对，但是他会把游戏树按照大小对应，从而错误计算游戏树。这就是下注量的抽象化。在AI知道的下注量之间。，我都不会去用。

（以上采访内容由底牌TV、德研社、扑克人社区三家国内权威扑克机构提供）

Dong kim：人机大战，我从AI身上也学到了很多（中）

Dong kim：人机大战，我从AI身上也学到了很多（下）

上一篇：Dong kim：人机大战，我从AI身上也学到了很多（中）
下一篇：Jens Kyllönen独家采访：弃牌求学是出于对线上扑克前景的担忧？

讨论区

有来有去

Titanium9 是个什么东东,之前听过Baby Tartanian 8,没搜到Titanium9吖

2017-03-08 20:42

回复举报

范围优势的各成分
--子曰 | 技术思考
视频：感受下Phil Ivey神一般的读牌力！
--Shmylm | 技术思考
讨论短牌中的数学以及一些推论
--铁头brother | 技术思考
有位置时3bet娱乐玩家， A 高彩虹面翻牌- 2
--周杨 | 技术思考
单一加注底池，没有位置游戏 A 高彩虹翻牌面
--周杨 | 技术思考
在低且连接性差的翻牌上, 大盲如何防守坚果同花听牌?
--周杨 | 技术思考
3种能让你变得更强的扑克学习方法
--Shmylm | 技术思考
有位置时3bet娱乐玩家， A 高彩虹面翻牌 - 1
--周杨 | 技术思考
[德州扑克翻牌前] BTN 对特定玩家 RFI 策略的调整
--周杨 | 技术思考
[德州扑克翻牌前] BTN 面对前位 RFI 的策略
--周杨 | 技术思考

讨论区

相关文章

关注扑克人微信公众号

提示信息

错误信息

打赏

举报答案

讨论区

相关文章

关注扑克人微信公众号