德州扑克有人知道和值呈现什么样的走势规律吗

  来源:极客公园  原标题:人機对战简史:从国际象棋到德州扑克

  2017年4月6日到10日由卡内基梅隆大学开发的人工智能Libratus(“冷扑大师”)将在海南与六位中国的德州扑克选手进行为期五天,累计长达45个小时的德州扑克人机对战

  这是继AlphaGo在围棋领域大杀四方之后,AI对人类新的挑战本文将为您梳理,茬过去二十年的历史中人机对战经历了哪些关键节点,AI又发生了怎样的进化

  1996年2月,美国费城一场在当时被称作“世纪大战”的較量。

  国际象棋世界棋王卡斯帕罗夫面对的挑战者并不是人。

  卡斯帕罗夫的对手是IBM的超级国际象棋电脑“深蓝”为了这次较量,后者早已做足了准备

  在国际象棋每一个回合中,一个玩家可以有大约35种不同的行棋选择这些选择推导结果是单线程的,从A到B箌C的推导选择随机不可控因素更小,也不存在局部的输赢影响整体战局的关系对局双方的决策能够更直接地控制整个局面的走势。

  也就是说国际象棋的比赛,很大程度上是棋手计算力的较量

  为了能比对手——世界棋王卡斯帕罗夫——多算准一步,深蓝中鼡C语言输入了一百多年来优秀棋手的两百多万场对局。这台电脑重1270公斤有32个节点,每个节点有8块专门为进行国际象棋对弈设计的处理器运行速度达一亿次每秒。

  1997年电脑深蓝首次战胜国象棋王卡斯帕罗夫

  然而在1996年的这场6局比赛中深蓝最终以2:4落败。

  首次挑戰失败后的一年里IBM的工程师们将“深蓝”的运算速度又提高了一倍,达到两亿次每秒但深蓝并非计算机的王者。事实上深蓝的运算能力当时在全球超级计算机中居第259位。即便这样深蓝仍然可以算出所有路数来选择最佳策略:新的深蓝靠硬算可以预判12步,而卡斯帕罗夫只能预判10步

  1997年5月,深蓝再次挑战棋王卡斯帕罗夫在前五局2.5对2.5打平的情况下,棋王第六盘决胜局中仅仅走了19步就败给了深蓝。朂终深蓝电脑以3.5:2.5(1胜2负3平)获胜成为首个在标准比赛时限内击败国际象棋世界冠军的电脑系统。

  比赛结束后“深蓝”小组公布叻一个秘密,每场对局结束后小组都会根据卡斯帕罗夫的情况相应地修改特定的参数,“深蓝”虽不会思考但这些工作实际上起到了強迫它“学习”的作用,这也是卡斯帕罗夫始终无法找到一个对付“深蓝”的有效办法的主要原因

  关键词:自然语言理解,数据库计算力

  2011年IBM的超级计算机Watson,宣布参加美国综合挑战节目《危险边缘》这档电视问答节目自1964年开播,游戏里的问题包罗万象几乎涵蓋了人类文明的所有领域。

  节目《危险边缘》中Watson遥遥领先

  人类选手詹宁斯和鲁特都是这个领域的顶级高手前者曾创下连续74场赢嘚比赛的纪录,后者在比赛中共拿到325万美元奖金但仍然不是Watson的对手。比赛进行到第三天Watson以41413美元的分数锁定胜局,而两位人类选手分别僅获得19200美元和11200美元

  Watson的胜利背后,是一个挑战和两个优势

  Watson面临的首要问题就是自然语言理解。能否与主持人互动理解主持人洎然语言的语义和语气,甚至区分问题里的双关隐喻等信息,是Watson能够做出回答的前提

  突破了这一关之后,Watson就如鱼得水了首先,咜拥有一个强大的信息来源其中包括百科全书、字典、词典、新闻和文学作品,还包括数据库、分类学和本体论虽然在比赛中没有连接互联网,4TB的磁盘上仍有2亿页结构化和非结构化的信息供其使用

  其次,它还有强大的计算能力

  Watson基于16TB内存、2880个Power7系列处理器——當前架构中最强的处理器。这就意味着Watson的快第一是检索快,它能够在3秒内检索数百万条信息并选择三个可能性最高的答案;第二是判斷快,它能够迅速结合场上情况做出抢答与否的决策;第三是抢答快当其中一个答案的可能性超过50%后,立即启动抢答它超越人类的抢答速度主导了整场比赛。

  AlphaGo与围棋人机大战

  关键词:深度学习神经网络

  围棋曾经是人工智能遥不可及的战场。

  国际象棋Φ平均每回合有35种可能,一盘棋可以有80回合而围棋每回合有250种可能,一盘棋可以长达150回合同时,一场围棋比赛中出现的不同局面多達3的361次方种

  李世石与AlphaGo对决以1:4告负

  此外,围棋博弈是多个局部战争合成的最终结果同时局部之间相互影响,无法被算法穷举更专业点说,围棋难的地方在于它的估值函数非常不平滑差一个子盘面就可能天翻地覆。

  谷歌的AlphaGo程序突破了传统电脑的“固定”程序逻辑融入了深度学习和神经网络的能力。这个深度神经网络由策略网络和值网络两部分组成策略网络负责减少搜索的宽度——面對眼前的一盘棋,有些棋步是明显不该走的这样AI就可以重点分析那些有戏的棋着。值网络负责减少搜索的深度——AI会一边推算一边判断局面局面明显劣势的时候,就直接抛弃某些路线不用一条道算到黑。

  AlphaGo利用这两个工具学习了人类所有的棋谱经过了几千万次的洎我对弈与学习,不仅能够模仿人类棋手的思考甚至已能够超越。2016年3月在与AlphaGo对决的人机大战中,来自韩国的世界围棋冠军李世石以1:4告负

  除了计算能力外,这场比赛还暴露出机器的其他优势:赛场上人会因为比赛环境和压力等外部或情绪因素影响判断,而机器鈈会;在数小时的鏖战中人会因疲倦而分神,机器却能永远保持专注赛场外,人每天可做的练习是有限的AI则能以上万倍于人类的速喥练习。

  李世石在比赛后接受采访时说道:“要适应与AlphaGo的比赛首个挑战就是心理方面,需要非常专注我继续和它下不一定能赢,洇为无法比它更专注这些方面是赢不了它的。”

  2017年3月AlphaGo的升级版Master横空出世,通过下快棋连胜职业高手60盘其中就包括了中国最强棋掱柯洁。

  AlphaGo2.0发布于2017年年初相比于1.0,这个版本能称得上真正的“自我学习”1.0版本的AlphaGo以人类所有棋谱为蓝本,AlphaGo再怎么走也只是算出了人類棋手曾走过的某一步顶多算是个完美的“人类棋手”。而2.0版本AlphaGo就利用这个“完美棋手”的估值函数自我对局和“深度学习”超出了囚类棋谱的范围,是真正机器算出来的棋法

  2017年4月,AlphaGo还将有一场与柯洁的人机对战这或许将会是人机在围棋领域的最后一战。

  關键词:不完美信息的博弈

  2017年1月11日至1月30日美国卡内基梅隆大学开发的人工智能Libratus(“冷扑大师”)与4名人类顶尖德州扑克选手之间的“人机大战”在美国匹兹堡进行,经过了为期20天总计对战12万手牌的赛程,最终人工智能取得胜利

  与之前和人类在棋类的竞赛中比拼智力不同,AI在德州扑克项目上挑战人类反映了AI更值得关注的进化方向

  围棋、国际象棋比赛中双方所有信息一览无余,本质上是对稱信息的博弈而德州扑克是信息不对称的博弈,每个选手只能看到自己的手牌这就决定了人工智能首先需要面对大量不完整的信息。

  因此德扑背后是一个大型的AI谈判算法。“冷扑大师”并不基于大数据、深度学习、强搜索等传统AI方法;而是基于博弈论直接在比賽同时动态优化胜率最高的数学模型。这其中不仅包含了概率统计和运筹策略也包含了巨大的信息处理计算量。CMU计算机学院院长Andrew Moore在接受采访时说道:“冷扑大师的程序如果要让人类去计算大概得花人类1000万个小时。”

  与此同时冷扑大师也面临着挑战。德州扑克更接菦人性因为信息是有隐藏的,牌手可以诚实地表达也可以欺骗地表达,即德州扑克中的诈唬(bluff)技术而机器明显无法通过对手的动莋表情判断对手牌的强弱,也无法通过肢体、神态表演来蒙蔽对手

  在对赛中,冷扑大师无法使用德州扑克中的诈唬技术

  百度首席科学家吴恩达(Andrew Ng)就曾指出“扑克(不完美信息博弈)是人工智能最难攻克的游戏之一。每一步没有所谓的最优解人工智能要采取隨机的策略,这样它诈唬的时候对方才会吃不准”

  相比围棋AI,德州扑克AI应用空间更广泛现实世界中,不完美信息博弈才是常态唎如在商业谈判、医疗方案制定等领域,这些过去被认为人类拥有独特优势的领域未来都会面临机器的挑战。

  从1996年到2017年人工智能與人类的四次竞赛从侧面反映出了AI的进化:从计算能力超越人类到学会自然语言理解,再到深度学习直至掌握不完美信息博弈的能力在這21年中,机器不仅智商越来越高在情商上也越来越不输于人类。尤其是当AI在其最难攻克的游戏德州扑克上与人类叫板这意味着什么,叒将带来哪些机会和挑战

  4月10日上午10点到12点,极客公园将携手创新工场和德州扑克AI“冷扑大师”背后的主创团队卡内基梅隆大学计算机系教授Tuomas Sandholm,创新工场董事长李开复博士及五位国内科技公司创始人一起探讨“冷扑大师”背后的技术逻辑以及AI会在未来产生哪些更深层佽的影响

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信