Libratus开发者：AI很快也会统治六人桌

Libratus开发者：AI很快也会统治六人桌

上个月底，卡内基梅隆大学开发的人工智能和一支由四名世界级职业牌手组成的团队进行了为期二十天的德州扑克单挑对战。让几乎所有人都震惊的是，人工智能以每百手14BB赢率的巨大优势击溃了职业牌手。

　　人机双方一共打了12万手牌，最终电脑赢了170万筹码，或者说17000个大盲注，将近90个买入。四名牌手最终全部败北。所幸的是，筹码并不代表真钱，而且参赛选手也得到了参赛奖金。

　　这个叫做Libratus的人工智能是由卡内基梅隆大学的计算机教授Tuomas Sandholm和他的博士生Noam Brown共同研发的。据Brown透露，新版本的Libratus还有很多改进空间。最新版人工智能理论上能够以50BB每百手的赢率击溃Libratus。

　　Card Player最近就这一历史性胜利和扑克机器人的未来研究和Brown进行了对话。

Brian Pempus（以下简称BP）：你对这次比赛的结果感到惊讶吗？

Noam Brown（以下简称NB）：是的，我事实上对于AI表现得这样棒感到很吃惊。比赛之前，我们将Libratus和之前版本的AI Claudico进行了对抗，取得了每百手10-12BB的赢率，比2015年人机大战人类选手的成绩还好，但不算很大的优势。因此，赛前我们认为自己相比人类选手稍占优势。但我们不确定优势究竟有多大。我们对于这次AI的出色表现感到很惊讶。

BP：这么说，你们之前没有料想到AI能够以每百手14BB的赢率击败人类选手？

NB：是的，因为压榨，我们不知道人类对Claudico有多大优势。他们那次发现了Claudico的弱点，并进行了利用。例如，对Claudico的跛入进行加注非常有效，也是他们胜利的主要原因。而Libratus不能够被它的对手压榨。Libratus 能够以10-12BB每百手的赢率击败Claudico，说明如果它没有任何弱点，就会在单挑比赛中比人类更厉害。Libratus取胜的原因是它没有任何人类能够加以利用的弱点。

BP：在比赛的某个阶段，人类选手几乎接近扳平，你当时觉得他们可能找到了电脑的弱点了吗？还是，你仍然很自信？

NB：是的，在第一周比赛快要结束的时候，人类接近打平。在第一周的比赛中，人类选手对于Libratus会如何调整以及Libratus哪些地方很擅长做了很多测试。他们没有告诉我他们的所有想法，但我听说他们在搜寻数据中的下注模式和AI的弱点，但弱点并不在那里。因此，我基本上不是很担心。一些他们认为AI存在缺陷的地方，其实并不存在缺陷。比如，有一天他们试图在80%的时候对AI做 3bet，因为他们认为根据数据AI对抗特定的3bet尺度比较弱。我认为那不是AI的真正弱点。那只是他们数据中的一些噪点，误导了他们那样想。但他们发现了系统的下注模式。例如，他们注意到，AI对于特别的率先加注尺度的应对不是很好。这是AI在比赛中的弱点，我们之前认为不怎么要紧，但结果表明这是一个很大的漏洞。幸运的是，AI已经对此做好了准备，人类休息了一整晚，而AI为了避免这个漏洞被长期利用进行了持续的训练和修复。这也是为什么一周后情况发生了反转。

BP：能够在比赛结束后对AI进行调整是不是很重要？这是否提高了AI的游戏水平？

NB：人们对Librutas有很多误解。调整不是那种我们告诉它更多地4bet或更多地弃牌。调整发生在人类翻前和翻牌圈使用不同下注尺度的时候。我们已经把很多下注尺度编入了程序，所以AI知道如何应对2BB、2.5BB、3BB率先加注。但如果人类开始用2.75BB率先加注，AI会四舍五入成3BB来应战。因此，它的应对应该很好。将2.75BB取整成3BB处理也不是什么不合理的事情，但如果AI能够不取整到近似的尺度，而是直接应对确切的下注尺度，那么它的表现会更出色。整整一晚，AI针对如何应对2.75BB和各种少见尺度的加注进行了训练。那就是AI唯一做出的调整。它将学会更好地应对不同尺度的翻前和翻牌圈下注。使AI能够随着时间推进而适应人类的游戏风格是人工智能算法的关键部分。AI并没有像人类选手想象中那样去榨取他们。整个比赛过程中，他们对抗的是同一台电脑。但随着时间推进，它学会了如何应对这些博弈树外的非常规下注尺度。

BP：那么，就适应比赛而言，AI如何应对转牌圈和河牌圈没有它如何应对翻前和翻牌圈那么重要，这样说是否公正？

NB：就转牌圈和河牌圈来说，你应该注意到AI在进入转牌圈时会花一些时间思考。事实上，它是在思考接下来在转牌圈和河牌圈的行动。因为AI的处理速度很快，有些人不能注意到。但每次人类在转牌圈和河牌圈下注之时，AI其实在反复计算其策略。这样做是为了得出一种能完美应对人类在转牌圈和河牌圈的任何尺度下注的策略。因此，因为AI实时计算这些策略，在转牌圈和河牌圈必须预先计算博弈树上的大量不同的下注尺度并不是一个问题。

BP：Libratus离采用完美的GTO策略（博弈论最优策略）还有多远？你们还会继续推出多少新版本的Libratus？

NB：没有人知道 Libratus离完美GTO策略还有多远。我们有对应的计算方法，但那么做的代价非常昂贵。目前AI还不能生成完美的GTO策略，但我们预计明年左右会有突破。如果我必须做出推测的话，我估计使用完美GTO策略的AI对抗Libratus能取得每百手15BB的赢率。这是我的粗略推测。具体赢率应该在每百手5-50BB之间。

BP：AI是否对无限德州扑克多人局对战进行了研究？

NB：我们对三人局已经做了一些研究。通常说来，即使对手超过两个，Libratus采用的技术也能很好的运转。但问题不是技术，而是你如何评估电脑的绩效。因为当你有超过两个对手时，即使你使用了完美的GTO策略，也可能输钱，因为其他牌手可以或明或暗的互相勾结。所以，你很难制定一种一台AI对抗五名人类的游戏策略，即使AI的水平胜过人类。评估人类的协作程度真的不太可能。这就是为什么人机大战采用单挑形式的原因。虽然这么说，但每年一度的人机大战未来会增加一个六人制比赛。因此，我们即将对6人桌扑克进行研究，而且我认为这个领域的发展将非常迅速。我认为，对Libratus做出一些小改进后，你将在两年内看到它在6人桌比赛击败人类。当你打6人桌扑克时，你不清楚是否应该使用GTO策略，可能专注于榨取较弱的对手会更好。我们正在扑克圈对这个话题进行讨论，但目前还没有任何答案。人类在压榨和利用弱手方面仍然具有一定的优势。

推荐阅读：

l 能破解无限德州扑克的AI究竟长啥样？

l 人工智能悬赏20万美元挑战职业牌手

l 三年之内人类或许会被机器人打败！

l 牌局分析：Jason Les vs 人工智能

l 德州扑克与人工智能