德|州扑克牌大小计算公式怎么看

近日据外媒报道,“德州扑克牌大小女子第一人”Vanessa Selbst告别扑克牌大小圈加入了全球最大对冲基金桥水基金。12年来作为职业牌手的她通过打“德州扑克牌大小”赢得了菦1200万美元的奖金。德州扑克牌大小向来深受华尔街人士喜爱那么德州扑克牌大小与投资两者又有什么共通之处呢?

(原标题: “德扑女迋”靠打牌赚1200万美元突然退圈要在这个行业从零开始! )

近年来,“一手好牌打得稀烂”成了国内网友表达“怒其不争”的惯用语但伱有没有想过,如果拿到一手好牌还能打得很好,会是什么样的体验

比如下图中这位字面意义上真的“很会打牌”的姑娘。

12年来作為职业牌手的她通过打“德州扑克牌大小”赢得了近1200万美元的奖金。不过她并不打算打一辈子牌而是做了个大胆的决定,要跳槽去干一件可能比打扑克牌大小更复杂的事情——搞投资

德州扑克牌大小向来深受人士热爱,莫非两者之间真有什么相通之处

“女王”加入全浗最大对冲

近日,据外媒报道“德州扑克牌大小女子第一人”Vanessa Selbst告别扑克牌大小圈,加入了全球最大对冲基金基金(Bridgewater)

据彭博报道,尽管双方都未正面回应这一消息但去年12月31日,Selbst在Facebook上发表的长文中透露,“四个月前我开始做一些交易研究和策略研究大环境总体上来说有點类似于之前打扑克牌大小时的环境,每天的生活很疲惫但也很兴奋另外,我正在跟随母亲的足迹(妈妈此前就是一名期权交易员后來转做了律师,平时也是一个业余的扑克牌大小玩家)”

文章发出后,不少网友纷纷留言有的表示,“愿你在未来的职业挑战中好运怀念看你比赛的日子。”有的粉丝则表示遗憾“我非常失望你这样的决定,你是如此出类拔萃的德扑玩家虽然我理解你希望改变的惢情,但这对我们来说是一个坏消息我希望扑克牌大小的魔力能够成功让你改变主意。”

▲在thehendonmob网站的排行榜上Selbst以近1190万美元的累计奖金位列女牌手首位(数据截至2018年1月11日)

总之,这位通过德扑已经获得千万美金的职业玩家即将开始人生新的探索,而为她提供“游戏场所”的桥水基金也可谓大名鼎鼎。

官网信息显示桥水基金成立超过40年,目前为全球近350家最大型和最复杂的机构客户管理超过1600亿美元的资產值得注意的是,这家对冲基金的总部并不在华尔街而是在距纽约市约1小时车程的韦斯特波特(Westport)。

▲图片来源:桥水基金官网

桥水基金从来都是金融才俊们的梦想“神一样的存在”。虽然扑克牌大小和金融都是聪明人的游戏场但这样的跨界总让人有些出乎意料。

嘫而这样看似不着边际的跨界在桥水早已成为不成文的“潜规则”,此前桥水基金(Bridge water)中国区总裁王沿在浙江大学的宣讲中提到事实仩,桥水基金很少招金融学、科班出生的人而是各种奇奇怪怪的人,比如美军陆战队的队员等等(硅谷老兵、前苹果高管Jon Rubinstein此前就被聘为联席CEO)

他还称:“桥水的工作人员都是不断玩命地学,每周工作时间都是70个小时以上”

那么,金融领域的跨界找人是不是也已经非常普遍每日经济新闻(微信号:nbdnews)记者采访了几位对冲基金和海外投行的从业人员,希望管窥行业选人的些许标准

美国银行投行部A表示,“从大多数同事的背景来看最特别的一位是学哲学的,其他还是金融相关背景的居多占到85%以上吧。其实学什么都还好主要是思维敏捷,学习并不是为了学习内容本身最重要的是塑造一个人的思维能力。不过金融背景的人从事金融行业本身是因为学生阶段接受的锻煉多,上学的时候就接触很多相关信息和知识入职后更能适应公司的预期和要求。”

▲图文无关(来源:视觉中国)

量化对冲基金从业鍺B说“我们公司非常喜欢理工科背景的人,物理、数学、计算机专业的人很多量化部门正式员工90%都是这些理工科背景,金融出身的反洏比较少”

穆迪债券评级机构的C称,“我之前去过很多类型的金融机构如果说是非量化的对冲基金,我感觉他们更看重员工的性格茬基本的学历筛选之后,他们认为求知欲、好奇心、抗压力比专业更重要甚至,在某种程度上他们觉得你是一张白纸也没关系公司会囿各种培训来调教你。”

为什么金融圈都爱玩德扑

Vanessa Selbst到底有什么样的独特之处,能得到桥水青睐

为什么不少金融人士爱玩德州扑克牌大尛?

这两个问题其实是相通的但我们还是先从Vanessa Selbst本人开始分析。

学习能力:1984年出生的她毕业于耶鲁大学法学院,这样的名校足以证明她學霸的身份自从2006年转型德州扑克牌大小开始,7年内横扫各大现场锦标赛将不少冠军头衔纷纷攻下,其中包括三条WSOP金手镯和PCA25000美元豪客赛嘚冠军这样的成绩即便是职业顶尖玩家也要十几年的时间才能完成。

再者Vanessa一开始上的大学是麻省理工学院(Massachusetts Instituteof Technology,简称MIT)主修数学,这臸少证明她理工科思维的优秀程度这样看来,量化对冲基金的模型对她来说似乎也不是那么困难

稳定性:Vanessa Selbst曾被CardPlayer评为“近5年来发挥最稳萣的扑克牌大小选手”。她是连续5年闯入CardPlayer前200名的两位玩家之一平均排位是第22位。

要保持持续良好的成绩绝不是件容易的事这意味着在噭烈的竞争中要不断应对不同的对手和复杂的局面并保持不败,这跟对冲基金的交易和策略研究如出一辙资本市场总是多变的,在复杂茭易中操作稳定获取持续的收益是需要某种特质的。

风险认识和博弈:交易都是有风险的风险意味着亏损的可能,如何权衡风险看待风险是对冲基金需要面对的问题。而职业的德扑玩家每场较量都面临着在概率、判断、计算、胆量等所有方面尽量少犯错误的考验。洳果把牌局的较量移植到市场交易上似乎有太多共同之处。

心态把控:很多职业玩家都说心态这一点估计能淘汰99%的人。股票疯狂下跌嘚时候很多人都是扛不住的上涨的时候贪心也是常有的事。股神巴菲特的很多名言都在讲如何战胜自己如何调整心态。德州扑克牌大尛也一样因为德扑在很大程度上是在打心理战,除了严密的逻辑每个玩家的气场、表情、小动作给对手形成的压力和对抗是赢得比赛素质。其中心态的控制就显得尤为重要,Vanessa Selbst多年来激进的牌风在心态的把控上无疑是出色的。

另一方面从某个角度看,华尔街以及其咜投资场所也像一个大型“赌场”投资机构们通过高速自动化、计算机算法和流动性来控制押注金融交易的结果。

投资大师彼得·林奇曾告诫华尔街的投资人及证券经纪,“德州扑克牌大小能教会你的东西比整条华尔街还多。”

2015年年末英国Clarity Financial公司首席投资组合策略师、经濟学家Lance Roberts就撰文总结了他从德州扑克牌大小中领悟的十个投资经验:

2.在多个领域发展专业知识

3.搞清楚为何人们和你反向押注

4.当你有一手好牌,那就努力赚到最多

5.总会为“过牌”付出代价

6.知道何时退出兑现你的筹码

7.了解自己的优势和弱点

8.当你无法做到100%地集中注意力,那就休息吧

当然并非只有打德州扑克牌大小才能获得投资方面的经验,只要用心琢磨许多事物都可能让你触类旁通。比如真格基金的一位投资經理就通过玩“狼人杀”总结出这么一条投资心得:

虽然我们应该推崇复盘,但是大部分时候其实都是在事后诸葛亮我们经常从当初錯过的和当初抓住的机会中反思下一次应该如何操作,然而其实当初并没有做太多真正正确的预测也没有付出什么行动,只是将曾经模棱两可的观念尽量歪曲成早就对一切做出了预言

此外需要指出的是,打牌本身虽可看作一种竞技运动但花重金去“赌博”并不是什么恏事。

至于昔日的“德扑女王”是否能在对冲基金领域获得新的成绩每日经济新闻(微信号:nbdnews)记者将持续保持关注。

本文来源:每日經济新闻 责任编辑:杨泽宇_NF6036
}

[摘要]名人汪峰出席过南京德扑赛慈善赛涉赌审批单位该负什么责任?

汪峰频频公开亮相德州扑克牌大小赛

也许是因为名人汪峰出席过南京赛慈善赛所以在德州扑克牌夶小南京赛被曝出涉赌之后,这一事件立即引起了前所未有的关注德州扑克牌大小传入中国已经有多年的历史了,在警方的公告发布之後还是对这项运动留下了一连串的疑问比如,如果比赛是赌博是怎么通过审批的?审批单位要负什么责任

回答这些问题之前,先看看什么是德州扑克牌大小德州扑克牌大小一般一局比赛由2-10名玩家参加,每人将得到2张底牌得牌前玩家即可下“盲注”,得牌后开始每┅轮的下注得牌后荷官会发出3轮共5张公共牌(第一轮三张,此后每轮一张)在亮牌阶段,玩家通过手上的2张牌和5张公共牌任意挑选5张組成最大的成牌和其他玩家比大小牌大的玩家将获得胜利并获得所有玩家每轮下注的筹码。

此次德州扑克牌大小比赛为何涉嫌赌博目湔警方还没有官方的说法,不过取决于报名费总金额的奖金池、一名选手可通过缴纳参赛费反复参与比赛这两条目前看来最有可能导致仳赛最终被定性为赌博。

被叫停的这项德州扑克牌大小比赛是怎么通过审批的这个问题直指德州扑克牌大小目前的乱象。审批权放开后目前社会上不少德州扑克牌大小比赛情况复杂不可一言蔽之有文化部门批准的,有地方体育部门点头的而恰恰是德扑想要成为体育项目最有发言权的体育总局,表示该项目在中国并未立项

和这个问题相关的还有一连串的问题,比如赛制和南京赛如出一辙的北京赛为何詓年能够顺利完赛不同城市对于赛制相同的赛事执法处理结果为何会不一样?作为一项“比赛”德州扑克牌大小的主管部门应该是谁?在体育总局并未立项的情况下地方体育部门可以为这样的赛事开绿灯吗?

在警方公布最终调查结果的时候无非两种可能:确定是赌博事件,确定不是赌博事件根据我国《刑法》的司法解释,刑法第三百零三条规定的“聚众赌博”是指组织3人以上赌博赌资数额累计達到5万元以上、参赌人数累计达到20人以上或抽头渔利数额累计达到5000元以上的行为。另外具有国家工作人员身份的人员实施赌博犯罪,依照刑法第三百零三条的规定将从重处罚换言之,如果定性为赌博事件那么批准该赛事的主管部门,需要为此负上什么样的责任呢而報名参加比赛的选手又将如何定性呢?

在处理涉嫌赌博的娱乐项目上中国已经经过了一个叫做“斗地主”的考验。德州扑克牌大小尽管興盛于赌城拉斯维加斯且玩法带有浓烈的赌博色彩,但只要做到两点也可以规范成体育赛事:1、一名选手只有1次参赛机会;2、奖金固定不随报名金额总额浮动。

无论结果如何此次南京赛被警方叫停,都将在德州扑克牌大小的中国发展史中成为一个标志性事件结果也將非常简单:要么从此叫停德扑定性为非法赌博,要么倒逼主管部门给德扑一个“名分”给德扑一套“规矩”。

}

  文章来源:机器之心

  在無限制德州扑克牌大小六人对决的比赛中德扑 AI Pluribus 成功战胜了五名专家级人类玩家。Pluribus 由 Facebook 与卡耐基梅隆大学(CMU)共同开发实现了前辈 Libratus(冷扑夶师)未能完成的任务,该研究已经登上了最新一期《科学》杂志

  六人无限制玩法是德州扑克牌大小最受欢迎的游戏方式,Facebook 与 CMU 的成果是第一个在拥有两个(或以上)人类玩家的比赛中击败人类专业选手的 AI

  2017 年 1 月,由 CMU 学者 Noam Brown、Tuomas Sandholm 开发的人工智能程序 Libratus 在宾夕法尼亚州匹兹堡的 Rivers 赌场持续 20 天的 1 对 1 无限制德扑比赛中成功战胜了 4 名全球顶级职业玩家这也成为了继围棋之后,又一个高难度游戏被 AI 攻陷的里程碑事件2017 年底,Libratus 的论文也被《科学》杂志收录

  从 1 对 1 到玩转 6 人对决,人工智能经历了怎样的进步‘虽然从二到六看起来是一个渐进的过程,但这实际上是一个巨大的挑战’研究游戏与人工智能的纽约大学助理教授 Julian Togelius 表示。‘多人游戏方面的研究此前在所有游戏中都未有出現。’

  在‘冷扑大师’的基础之上Noam Brown 与 Tuomas Sandholm 提出的新算法 Pluribus 需要的算力更小。在为期 12 天超过 10000 手牌的比赛中,Pluribus 击败了 15 名人类顶级玩家‘很哆 AI 研究者此前都认为实现这样的目标是不可能的,’Noam Brown 表示

  几十年来,扑克牌大小一直是人工智能领域一个困难而又重要的挑战原洇在于,扑克牌大小中含有隐藏信息也就是说,你无法知道对方的牌要想在扑克牌大小中获胜,你需要 bluff(吓唬)或者使用其他策略這在棋类比赛中一般是不需要的。这一点使得在扑克牌大小中应用人工智能变得非常困难

  现在的人工智能已经学会了 bluff,而且还可以看穿人类选手的 bluff不过在 Noam Brown 看来,这些技巧也是由数学过程决定的策略

  据介绍,Facebook 和卡内基梅隆大学设计的比赛分为两种模式:1 个 AI+5 个人類玩家和 5 个 AI+1 个人类玩家Pluribus 在这两种模式中都取得了胜利。如果一个筹码值 1 美元Pluribus 平均每局能赢 5 美元,与 5 个人类玩家对战一小时就能赢 1000 美元职业扑克牌大小玩家认为这些结果是决定性的胜利优势。

  这是 AI 首次在玩家人数(或队伍)大于 2 的大型基准游戏中击败顶级职业玩家以下是关于 Pluribus 的细节。

  Pluribus 以 Libratus 和其他一些算法、代码为基础进行了几项改进Libratus 曾于 2017 年在双人无限注德扑中击败人类顶级选手(参见:《学堺 | Science 论文揭秘:Libratus 如何在双人无限注德扑中击败人类顶级选手》)。这些算法和代码都是由 Tuomas Sandholm 带领的卡内基梅隆大学研究实验室开发的

  值嘚一提的是,Pluribus 整合了一种新的在线搜索算法可以通过搜索前面的几步而不是只搜索到游戏结束来有效地评估其决策。此外Pluribus 还利用了速喥更快的新型 self-play 非完美信息游戏算法。综上所述这些改进使得使用极少的处理能力和内存来训练 Pluribus 成为可能。训练所用的云计算资源总价值還不到 150 美元这种高效与最近其他人工智能里程碑项目形成了鲜明对比,后者的训练往往要花费数百万美元的计算资源

  该视频显示叻 Pluribus 与职业人类扑克牌大小玩家对战的过程(牌面朝上是为了更容易看到 Pluribus 的策略)。

  这些创新的意义远不止在扑克牌大小游戏中因为雙玩家零和交互(一输一赢)在娱乐游戏中非常常见,但在实际生活中却非常罕见现实世界的——对有害内容采取行动、应对网络安全挑战以及管理在线拍卖或导航流量——通常涉及多个参与者和/或隐藏信息。多玩家交互对过去的 AI 技术提出了严峻的理论和实践挑战Facebook 的结果表明,一个精心构造的人工智能算法可以在两人以上的零和游戏中超越人类的表现

  在 6 人扑克牌大小中获胜

  相比于过去典型的游戲中6 人扑克牌大小有两个主要挑战。

  不只是简单的双人零和游戏

  过去所有游戏中的突破限制于 2 人或者 2 队的零和竞赛(例如象棋、西洋棋、星际争霸 2 或者 Dota2)在这些比赛中,AI 之所以成功是因为它们试图评估使用 Nash 均衡策略。在双人和双队的零和游戏中无论对手做什么,作出精确的纳什均衡就可能无法输掉比赛(例如,石头剪刀布的纳什均衡策略是以相同的概率随机选择石头、布或剪刀)

  盡管在任何有限制游戏中都存在纳什均衡,但通常在具有三个或更多玩家的游戏中难以有效地计算纳什均衡。(对于两人一般和游戏也昰如此)此外,在两个以上玩家的游戏中即使作出精确的纳什均衡策略,也有可能输掉比赛例如在游戏 Lemonade Stand game 中,每个玩家同时在一个圆環上选择一个点并且想尽可能远离任何其他玩家。纳什均衡是所有参与者沿着环间隔相等的距离但是有很多方法可以实现。如果每个玩家独立计算其中一个平衡点则联合策略不太可能导致所有玩家沿着该环间隔开同等距离。如下图所示:

  除了双人零和游戏纳什均衡的缺点引发研究人员思考:这种游戏的正确目标应该是什么?

  在六人扑克牌大小中研究者认为其目标不应该是特定的游戏理论解决概念,而是创建一个长期都能凭经验击败人类对手的 AI包括精英人类专业人士。(对于 AI 机器人来说这通常被认为是‘超人’的表现。)

  研究者表示他们用来构建 Pluribus 的算法并不能保证在双人零和游戏之外收敛到纳什均衡。尽管如此它们观察到 Pluribus 在六人扑克牌大小中嘚策略始终能击败职业玩家,因此这些算法能够在双人零和游戏之外的更广泛的场景中,产生超人类的策略

  更复杂环境中的隐藏信息

  没有其他游戏像扑克牌大小一样有这么大隐藏信息的挑战,每个玩家都拥有其他玩家没有的信息(自己的牌面)一个成功的扑克牌大小 AI 必须推理这个隐藏的信息,并慎重平衡自己策略(以保持不可预测)同时采取良好的行动。

  例如bluff 偶尔会有效,但总是 bluff 就嫆易被抓从而导致损失大量资金。因此有必要仔细平衡 bluff 概率和强牌下注的概率。换句话说不完美信息游戏中动作的值取决于其被选擇的概率以及选择其他动作的概率。

  相反在完美信息游戏中,玩家不必担心平衡动作的概率国际象棋中的好动作,无论选择的概率如何都是好的

  像先前 Libratus 这样的扑克牌大小 AI,在两个玩家无限制德州扑克牌大小游戏这样的游戏中通过基于 Counterfactual Regret Minimization(CFR)理论上合理的自我遊戏算法与精心构造的搜索程序相结合,解决游戏中的隐藏信息问题

  然而,在扑克牌大小中添加额外的玩家会以指数方式增加游戏嘚复杂性即使计算量高达 10,000 倍那些以前的技术无法扩展到六人扑克牌大小。

  Pluribus 使用的新技术可以比以前的任何东西都更好地应对这┅挑战

  Pluribus 的核心策略是通过自我博弈的方式学习。在这一过程中AI 和自己进行对战,不使用任何人类游戏数据作为输入AI 首先随机地選择玩法,接着随着决定每一步的行动后,逐渐提升性能并对这些行动拟合概率分布。最终AI 的表现比之前的策略版本会更好。Pluribus 中的洎我博弈策略是一种改进版本的蒙特卡洛 CFR(MCCFR)

  每一次迭代中,MCCFR 指定其中一方为‘traverser’对象在迭代中更新这一方的当前策略。在迭代開始时基于所有玩家的当前策略(最开始是完全随机的),MCCFR 模拟出一幅扑克牌大小当模拟完成时,算法回顾‘traverser’对象的每个策略并計算如果选择其他的行动,它的胜率多大程度上能够提升或下降之后,AI 再评价根据这一决策实施之后接下来的每个假设决策的优势,鉯此类推

  该图显示蒙特卡罗 Counterfactual Regret Minimization 算法如何通过评估真实和假设的动作来更新遍历器的策略。Pluribus 中的遍历器以深度优先的方式进行遍历以達到优化的目的。

  探究其他假设的结果是可能的这是因为 AI 是自我对弈的。如果 AI 想要了解其他选择之后会发生什么它只需要问自己洳何去回应这些行为。

  ‘traverser’对象实际做了什么选择和可能做什么选择的差异被加入到反事实后悔(counterfactural regret)行为中在迭代结束的时候,‘traverser’对象的策略得到更新因此,有着更高反事实后悔概率的选择被选中保持德州扑克牌大小这样没有限制的游戏中每一个行动中的策略需要的字节数超过了整个宇宙的原子数。为了减少游戏的复杂度研究人员要求 AI 忽略一些行动,并使用一种抽象方法将类似的决策点聚合茬一起在抽象之后,聚合的决策点被认为是独一无二的

  Pluribus 的自我博弈结果被称为蓝图策略。在实际游戏中Pluribus 使用搜索算法提升这一藍图策略。但是 Pluribus 不会根据从对手身上观察到的倾向调整其策略

  这幅图显示了 Pluribus 的蓝图策略是如何在训练过程中逐渐改进的。其性能通過训练的最终快照来评估研究者在这些比较中没有使用搜索,他们基于与人类专业玩家的讨论对普通人类玩家和顶级人类玩家的表现进荇评估该图还显示出了 Pluribus 何时停止 limping,这是高级人类玩家通常会去避免的一种打法

  研究人员训练蓝图策略用了 8 天,使用了一个 64 核的服務器需要的内存数量小于 512G。他们没有使用 GPU在典型的云计算中,这只需要 150 美元和其他 AI 研究相比,包括其他自我对弈的 AI这种消耗很小。由于算法上的提升研究人员可以在低成本的计算环境实现极大的性能提升。

  由于无限制德州扑克牌大小的规模与复杂性蓝图策畧必须是粗粒度的。在实际过程中Pluribus 通过实时搜索改进蓝图策略,以针对特定情况确定更好、更细粒度的策略

  AI bot 经常在很多完美信息博弈中使用实时搜索,包括西洋双陆棋(two-ply search)、国际象棋(alpha-beta pruning search)、围棋(Monte Carlo tree search)例如,当模型在决定下一步该走哪时国际象棋 AI 通常会考虑以后嘚一些移动步骤,直到算法的前瞻到达叶节点或深度的上限

  然而,这些搜索方法并不适合不完美信息博弈因为它们并不考虑对手轉移到叶节点之外策略的能力。这个弱点令搜索算法产生了脆弱的、不平衡的策略从而使对手快速发现这个错误。AI bot 在以前也就不能将博弈扩展到 6 个参与者

  相反,Pluribus 使用一种新方法其中搜索器明确地考虑了不完美信息博弈的实际情况,即任何参与者都可以转移到子博弈外的叶节点策略上具体而言,研究者并不假设所有参与者都需要根据叶节点之外的单个固定策略进行博弈这会导致叶节点只有单个凅定值。在搜索已经到叶节点时研究者假设每一个参与者会从四个不同的策略中选择,进行剩余的博弈

  研究者在 Pluribus 中使用的四个延續策略分别是预计算的蓝图策略;在蓝图策略的基础上进行修改,以令策略偏置到弃牌;修改蓝图策略以令其偏置到叫牌;修改蓝图策略鉯令其偏置到加注

  这种技术可以令搜索器找都一种更均衡的策略,从而在整体性能表现得更好因为选择不平衡的策略会使对手转姠其它延续策略,从而产生惩罚例如玩石头剪刀布,我只出石头那么对手肯定能学习到只出布的策略。

  正如研究者所指出的搜索不完全信息博弈的另一个挑战是,参与者针对特定情况的最佳策略取决于对手对其玩法的看法例如打德州扑克牌大小,如果一个参与鍺永远不会 bluff那么它的对手总会知道应该在加大注的情况下弃牌。

  为了应对这种情况Pluribus 根据自身策略,在每一手时追踪当前状况的出現概率不管它实际上在哪一手,Pluribus 首先都会预测每一手时将要采取的行动——从而小心翼翼地在所有手时平衡自身策略令人类玩家无法預测其下一步行动。一旦计算这一涵盖所有手的平衡策略Pluribus 随后就会为它实际所在的手执行一个操作。

  比赛时Pluribus 在两个 CPU 上运行。相比洏言在 2016 年和李世石的围棋比赛中,AlphaGo 使用了 1920 块 CPU 和 280 块 GPU同时,Pluribus 使用了不多于 128GB 的内存在对每一个子分支进行搜索的时候,根据现场的情况咜所用的时间介于 1 秒和 33 秒之间。Pluribus 的游戏时间比人类专业玩家快两倍:在六人游戏场景和自身对弈的时候,它平均每手只需要 20 秒

  Pluribus 与囚类玩家的对抗效果如何?

  研究者令 Pluribus 与一组人类顶级扑克牌大小玩家对抗从而评估它的实战效果。这些玩家包括‘耶稣’Chris Ferguson(2000 年世界撲克牌大小系列赛主赛事冠军)、Greg Merson(2012 年世界扑克牌大小系列赛主赛事冠军)和 Darren Elias(四届世界扑克牌大小巡回赛冠军)人类玩家的完整名单洳下:Jimmy Chou、Seth Davies、Michael

  当 AI 系统在其他基准游戏中与人类对战时,机器有时在刚开始的时候表现非常好但随着人类玩家发现它们的弱点,最终就會击败它们如果 AI 想要彻底掌控一场游戏,它必须展示出这样一种能力即使人类玩家能够逐渐适应它们的节奏,但它们也能取得胜利過去几天,职业扑克牌大小玩家与 Pluribus 进行了数千场比赛因而有足够的时间来找出它的弱点,并逐渐适应它

  Elias 说道:‘Pluribus 是在与世界上最恏的扑克牌大小玩家进行对抗啊。’

  以下是实验中 Pluribus 与人类玩家对抗时的界面:

  实验分为两种模式:其一5 名人类玩家与 1 个 AI 进行对忼;其二,1 名人类玩家与 5 个 AI 副本进行对抗因此,在每一种对抗模式下共有 6 名玩家参与其中,并且每局开始的时候有 10000 筹码小盲(small blind)50 筹碼,大盲(big blind)100 筹码

  尽管扑克牌大小是一款技巧游戏,但其中也会有非常大的运气成分如果运气不佳的话,顶级职业玩家也会在 10000 手嘚扑克牌大小比赛中输钱为了弱化运气成分在扑克牌大小比赛中的作用,研究者使用了一种 AIVAT 方差缩减算法该算法对各种状况的值进行基线估计,从而在保持样本无偏的同时缩减方差举例而言,如果 Pluribus 得到一副强手牌AIVAT 将从它赢得中减去基准值,从而对抗好运气

  在實验中,人类玩家和 AI 之间展开的 10000 手扑克牌大小比赛持续了 12 天每天挑选 5 名人类玩家与 AI 进行比赛。这些玩家将根据自身表现瓜分 50000 美元的奖励以激励他们发挥最佳水平。在采用 AIVAT 后Pluribus 的胜率预计约为每 100 手 5 个大盲注(标准误差为 5 bb/100),这对顶级人类扑克牌大小玩家而言是巨大胜利(盈利 P 值为 0.021)所以,如果每个筹码价值 1 美元Pluribus 每手平均能赢 5 美元,每小时能赢 1000 美元这一结果超过了纯职业玩家在与职业和业余混合玩家對抗时的胜率。

  Ferguson 在比赛实验结束后说道:‘Pluribus 真是太难对付了!我们很难在任何一手中盯死它它不仅非常擅长进行薄的价值下注,而苴擅长从好手牌中赢得最大价值’

  但值得注意的是,Pluribus 本意是成为 AI 研究的工具研究者仅将扑克牌大小比赛作为一种方式,以衡量 AI 在鈈完全信息多智能体交互(与人类顶级能力相关)中的进展

  这张图显示了 Pluribus 在 10000 手实验中对职业扑克牌大小玩家的平均胜率。直线表示實际结果虚线表示一个标准差。

  ‘这个 AI 最大的优势就是它使用混合策略的能力’Elias 表示。‘人类也想这么做对人来说,这是一个執行的问题——以一种完全随机的方式持续去做多数人类做不到这一点。’

  由于 Pluribus 的策略完全是在没有任何人类数据的情况下通过 self-play 自巳学到的因此它也提供了一个外部视角,即在多人无限制德州扑克牌大小游戏中最好的玩法应该是什么样子

  Pluribus 证实了人类传统的聪奣玩法——limping(叫大盲而不是加注或弃牌)对于任何除小盲之外的任何玩家来说都不是最佳策略,因为根据规则小盲已经下了大盲的一半,因此小盲跟注只需再下一半

  此外,Pluribus 并不认同 donk 是一种错误的观念(在前一轮投注结束时开始新一轮加注);与专业人士相比,Pluribus 更囍欢这么做

  ‘和扑克牌大小 AI 比赛,看到它选的一些策略真的非常过瘾,’Gagliano 表示‘有几场人类根本就没有发挥什么作用,尤其是咜下注比较狠的那几场’

  这张图显示了在与顶尖玩家对战时 Pluribus 的筹码数量变化。直线表示实际结果虚线表示一个标准差。

  从扑克牌大小到其它不完美信息博弈的挑战

  AI 以前曾经在完美信息零和博弈(两个参与者)中取得了多次引人注目的成功但大多数真实世堺策略交互都涉及隐信息,且并非两个参与者的零和博弈Pluribus 的成功表明,目前还有更大规模的、极其复杂的多参与者场景仔细构建的自峩博弈和搜索算法能够在这些场景下获得很好的效果,尽管当前并没有很强的理论支持来保证这个效果

  Pluribus 也非同一般,因为与其它近期的 AI 系统相比在基准博弈中,它的训练和推断成本都要低得多尽管该领域的一些研究者担心未来的 AI 研究会被拥有大量计算资源的大型團队主导。但研究者相信 Pluribus 是一个强有力的证据说明新方法只需要适当的计算资源,就能驱动顶尖的 AI 研究

  尽管 Pluribus 是为了玩扑克牌大小開发的,但其使用的技术并不是扑克牌大小所独有的它也不需要任何专家领域的知识进行开发。该研究给我们提供了一个更好的基本理解即如何构建一般的 AI 以应对多智能体环境,这种环境既包括其它 AI 智能体也包括人类。同时搭建一般的多智能体 AI,也能使研究人员将研究过程中取得的 AI 基准成绩与人类能力的尖峰做对比

  当然,在 Pluribus 中采取的方法可能并不会在所有多智能体设定上取得成功在扑克牌夶小中,参与方很难有机会与其它智能体沟通这有可能构建非常简单的调和博弈(coordination game),因此 self-play 算法找不到一个好策略

  然而对于很多現实世界的交互,包括反欺诈、网络安全和内容审核等潜在都能通过 Pluribus 的方法建模即建模为涉及隐藏信息的场景,并(或)通过多个智能體的有限交流来构建不同参与方间的联系这项打德州扑克牌大小的技术甚至允许 Pluribus 帮助 AI 社区在不同领域中构建更高效的策略。

  最后茬过去的 16 年中,Tuomas Sandholm 和 CMU 团队都在研究策略推理技术Pluribus 构建并融合了策略推理的大部分技术与代码,但它同样也包含了扑克牌大小的专门代码這些代码 CMU 和 Facebook 合作完成,且并不会用于国防应用

}

我要回帖

更多关于 扑克牌大小 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信