你好,游客 登录
背景:
阅读新闻

怎样开发“逢赌必赢”的德州扑克机器人?

[日期:2017-04-06] 来源:  作者: [字体: ]

  每年夏天,世界上最好的扑克机器人都会聚到一起——其实是开发它们的计算机科学研究人员聚到一起——举办一个扑克锦标赛。近年来,有三个机器人团队显露了比较明显的优势:第一个是阿尔伯塔大学的团队,目前有大约十几人在开发扑克程序。接下来是卡内基梅隆大学的团队,他们的扑克机器人名为 “Tartanian”。然后是独立研究者埃里克·杰克逊(Eric Jackson),他开发了一个名为“Slumbot”的程序。

  

 

  锦标赛采用的规则分好几种,各个团队会根据规则不同对机器人的“个性”进行调整。有些比赛采用淘汰制,每一轮都有两个机器人互相对抗,到结束时,筹码最少的机器人会被淘汰。为了赢得这种比赛,机器人需要有强大的求生本能。它们的得分只要能顺利进入下一轮就足够了——太贪心不是好事。然而,在另外一些比赛中,总分最多的机器人才能获胜。在这些比赛中,机器人就需要尽可能地每场多赢一些,因此它们需要有更强的进攻性才行。

  大多数参加锦标赛的机器人已经开发了好多年,经过成百上千万次,乃至数十亿次的扑克训练。然而,锦标赛的奖金并不多。获胜的研究人员可能会觉得很自豪,赚到了吹牛的资本,但他们获得的奖金数目和拉斯维加斯没法比。那么,这其中的诱惑又是什么呢?

  扑克与象棋的不同之处

  每当一台计算机玩扑克的时候,它面对的是一个我们大家都很熟悉的问题:如何处理缺少的信息。

  在一些游戏中,比如下象棋的时候,信息不是一个问题。玩家可以看到的一切。他们知道哪个棋子在哪里,对手是怎么走棋的。这种游戏的关键不在于玩家无法观察到事情,而在于他们无法处理所有可用的信息。这就是为什么一只猴子随便下的棋有可能(尽管可能性很渺茫)打败象棋大师的原因。

  有了良好的玩游戏算法——以及强大的计算能力——信息处理问题是可能破解的。所以阿尔伯塔大学计算机科学家乔纳森·谢弗(Jonathan Schaeffer)和同事们开发了完美的跳棋策略,形成了计算机如何破解国际象棋的一些理论。机器可以计算所有不同的棋子走法,用纯粹的蛮力法击败对手是有可能的。但扑克就不一样了。无论扑克玩家的牌技都多精湛,都必须面对这样一个事实:你看不到对方的牌。虽然扑克游戏也有规则和限制,但总是存在着一些未知因素。

  在生活中,很多问题也有同样的特点。比如谈判、拍卖、议价——都是不完全的信息博弈。 “扑克是一个完美的缩影,可以代表我们在现实世界中遇到的很多种状况。”谢弗说。

  “仙王座”驾到

  2015年,阿尔伯塔的研究人员在《科学》杂志上发表了一篇关于“仙王座”(Cepheus)扑克程序的文章,标题是《双人限注德州扑克被攻破》(H eads-Up Limit Hold’em Poker Is Solved)。

  在进行了大量的训练后,仙王座可以成为扑克高手。为了积累经验,它一直不断地玩扑克,大约每秒种两千局。随着时间的推移,它越来越善于探索可能的组合,这意味着在它的出牌策略中,对手可以攻击的薄弱环节越来越少。最终,这个机器人学会了(从长远来看)如何避免失败,哪怕它面对的是一个无懈可击的玩家。研究人员用“遗憾最小化”算法来对仙王座加以完善:每场比赛之后,它会进行回顾,考虑如果用另外的方式出牌,可能会出现怎样的情况,然后再利用这些信息,从错误中学习技能。

  仙王座已经表明,即使在复杂的情况下,它也可以找到一个最优化的策略。研究人员指出,在一系列其他场景,比如设计守卫巡逻路线,研发医药疗法等等中,这种算法可能也会相当有用。

  当然,这项研究还有一个不那么实用的原因。该团队在这篇科技论文的末尾引用了阿兰·图灵的一句话,大意是说,我们做这项工作的主要动机是因为它充满了乐趣。

  人类处在劣势了吗?

  电脑程序在象棋、跳棋、扑克游戏中表现不凡,你可能会觉得,人类在这样的比赛不再具有竞争力了。图灵曾指出,如果一个人试图假装自己是一台机器,“他就会表现得很糟糕。”让一个人来做计算,他的速度会比计算机慢得多,而且还更容易算错。

  即便如此,这个世界上仍然存在着一些令机器人发懵的情况。在玩智力游戏《危险边缘》(Jeopardy!)的时候,IBM机器人“沃森”对长度较短的线索最感头痛。如果主持人说出一个类别和一个名称,比如“第一夫人”和罗纳德·里根 —— 沃森需要很长时间才能在其数据库搜索找到正确的回应(“谁是南希·里根?”)在这个节目中,如果主持人给出的线索较长,也比较复杂,沃森就可以击败人类选手,但是如果线索只有几个词,人类就会占上风。在问答节目中,“简洁”似乎是机器人的天敌。

  扑克游戏也是如此。机器人需要时间来研究对手的出牌方式,然后加以利用。而职业扑克玩家可以更迅速地摸清其他玩家的手法。 “人类善于利用很少的数据来做出有关对手的假设,”谢弗说。

  阿尔伯塔大学的扑克团队也发现,人类特别容易受到强硬战术的影响。 “一般来说,人类扑克高手在击败对手的策略方面,虚张声势是很重要的一条,” 阿尔伯塔大学的计算机科学研究员迈克尔·约翰森说。 “虚张声势策略给对手施加了很大的压力,让他们做出艰难的决定,因此往往非常有效。”在和人类玩家玩牌时,机器人也试图模仿这种行为,引发对手的错误。

 

  也就是说,机器人似乎可以通过模仿人类的行为来获得很多优势。有时候,就连模仿人类的缺陷也会带来好处。

收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款