DeepMind哈工大团队训练用什么棋谱来训练AlphaGo

点击联系发帖人 时间：2017-05-10 06:43

团队拓展训练

千年未有之大变局：关于DeepMind团队AlphaGo的更多信息
已有 8196 次阅读
|个人分类:|系统分类:
PS：战胜樊麾的是Distributed AlphaGo，而不是单机版的AlphaGo？？？城头变幻大王旗&日，Google公司DeepMind团队在Nature杂志上发表学术论文，介绍了人工智能的围棋程序AlphaGo的构建原理与具体实现，同时宣布AlphaGo在分先的公平对局条件下以5：0的成绩击败了职业棋手樊麾。这是人工智能领域了不起的成就。我读了这篇Nature文章，也看了网上的很多评论。我的专业水平不足以做科普，我的围棋水平也不足以衡量AlphaGo的棋力。下面是关于AlphaGo的一些信息，比赛信息来自于Nature文章，其余来自于网上文章。&AlphaGo与樊麾的比赛：1、-9日，连续五天比赛。五局胜负制，无论胜负如何，五局都要下完。2、每天两盘棋，第一盘是正式比赛（慢棋，1小时加3次30秒的读秒），第二盘是非正式比赛（快棋，只有3次30秒的读秒）。3、分先对局，采用中国围棋规则（黑棋贴7.5目）。 4、最后成绩只记录正式比赛结果。5、比赛规则在比赛之前就已经确定，得到樊麾的认可。6、AlphaGo在正式比赛（慢棋）中以5：0战胜樊麾。樊麾3次执黑（第一、三、五局）；第一局AlphaGo执白2.5目胜樊麾，其余四局都是中盘胜。7、AlphaGo在非正式比赛（快棋）中以3：2战胜樊麾。樊麾2次执黑（第一、三局）；5盘都是中盘胜。&AlphaGo与其他电脑的比赛：1、对手为CrazyStone、Zen、Pachi、Fuego、GnuGo，他们和AlphaGo一样，都是单机版。具体版本和棋力如下：AlphaGo（无），CrazyStone（2015，KGS 6d）、Zen（5， KGS 6d）、Pachi（10.99，KGS 2d）、Fuego（svn1989，无）、GnuGo（3.8，2k）。KGS大致相当于国内围棋网站如弈城、新浪、Tom等。2、还有一个更强的对手，Distributed AlphaGo，即分布式的AlphaGo。3、AlphaGo和Distributed AlphaGo的算法是相同的，差别在于硬件资源。AlphaGo有48个CPU和8个GPU，而Distributed AlphaGo有1202个CPU和176个GPU。作为比较，CrazyStone只有32个CPU，而Zen只有8个CPU。4、AlphaGo慢棋5：0胜职业二段樊麾，快棋3：2胜樊麾。5、电脑之间的比赛，每步棋最多5秒钟。6、AlphaGo（单机版）比其他电脑强很多：495局比赛中，只输了1局；在与CrazyStone、Zen和Pachi的让四子对局中，AlphaGo的胜率分别是77%、86%和99%。7、Distributed AlphaGo的棋力更强，他对单机版AlphaGo的胜率是77%，对其他电脑是100%。&关于电脑的棋力：1、AlphaGo之前的电脑可以算是业余高手，CrazyStone和Zen都是KGS 6d，大致是弈城6d或者更好一些的水平，大概是业余5段的水平。2、职业棋手对此前电脑（大致是Zen）棋力的评价：周俊勋和俞斌都说能让4-5子，罗洗河说能让9子。估计也应该有业5的水平。3、职业棋手认为AlphaGo的棋力应该有职业水准，大致是顶尖棋手先二的水平。也就是说，顶尖棋手可以让先或者让二子。4、AlphaGo对Zen的让四子对局，胜率为86%。Distributed AlphaGo的棋力更强，他对单机版AlphaGo的胜率是77%。5、Nature文章估计，AlphaGo的棋力大致是职业二段（樊麾是职业二段，也是用来衡量棋力的标尺）。从文章给出的误差棒来看，樊麾的水平（误差棒）在1p-4p之间（也许是9d-5p，反正起伏很大就是了），而AlphaGo的水平很稳定，就是2p。Distributed AlphaGo的棋力大概是4-5p。6、因为所有的对局都是去年10月之前的，AlphaGo现在的棋力应该是更强了。7、已经公布的信息不足以推断AlphaGo的棋力，只知道他至少具有业余顶尖高手的棋力，强于樊麾，弱于Distributed AlphaGo。（PS：战胜樊麾的是Distributed AlphaGo，而不是单机版的AlphaGo？？？） &关于AlphaGo与李世石的比赛：1、比赛时间是今年3月，地点是韩国首都汉城。五局胜负制，无论胜负如何，五局都要下完。出战李世石的是AlphaGo而不是Distributed AlphaGo。2、业余爱好者都看好李世石，职业棋手认为没问题，AI专家认为值得期望。柯洁（目前中国排名第一的棋手，也是现在世界最强的棋手）认为AlphaGo取胜的机会不到5%。3、李世石是冠军数最多、人气最高、名声最大的现役棋手，他出来拿这100万美元的广告费是实至名归的。 4、当事人都谨慎乐观：李世石说要争取4：1或5：0；DeepMind团队很有信心，认为大致是五五开。5、第一局比赛非常重要。对于李世石来说更是如此。6、形势对李世石非常不利。“胜之不武，弗胜为笑”。李世石在明、AlphaGo在暗。AlphaGo知己知彼，而李世石知己而不知彼。AlphaGo肯定研究过李世石的所有棋谱，甚至与李世石交过手的棋手的所有棋谱；AlphaGo的有效棋谱只有5-10盘，甚至连这几盘棋谱也谈不上有效，因为这些棋谱显示不了他的真实棋力，只能说明他比樊麾二段强。不知道比赛协议里有没有说在比赛前给李世石提供足够的棋谱，即使提供了李世石也很难得到多少有效信息。 7、我看好李世石，我认为至少是七三开（前几天我认为是九一）。我认为AlphaGo和李世石应该都能赢至少一盘棋。李世石应该是4:1拿下比赛。如果直落三局的话，有可能是3:2.&山雨欲来风满楼&&附录一：学术论文google公司DeepMind团队Mastering the game of Go with deep neural networks and tree searchDavid Silver, Aja Huang, ......, Demis HassabisA computer Go program based on deep neural networks defeats a human professional player to achieve one of the grand challenges of artificial intelligence.Nature &529, 484–489 (28 January 2016) doi:10.1038/nature16961 Received &11 November 2015 &Accepted &05 January 2016 &Published online &27 January 2016&Facebook公司（田渊栋，Yan Zhu）Better Computer Go Player with Neural Network and Long-term PredictionYuandong Tian, Yan Zhu(Submitted on 19 Nov 2015 (v1), last revised 26 Jan 2016 (this version, v2)) &&附录二：棋界反响新浪专题：围棋人工智能来袭 &&人工智能5-0欧洲冠军李世石将捍卫人类尊严
&&李世石：请人类支持我争取不让电脑赢到2盘
&&世界冠军谈谷歌围棋：人类应放下自己的骄傲 &&樊麾裁判设计者专家谈谷歌围棋或战胜李世石
&　文章来源：环球科学&附录三：知乎科普如何看待Google围棋 AI AlphaGo 击败欧洲围棋冠军？
&&&田渊栋，卡耐基梅隆大学机器人系博士，Facebook人工智能组研究员 &&附录四：我的看法1、棋力很难从棋谱上估计出来的。终究是盘上见胜负，旁观者很难看出来的。就像日本人当年评价中国的古棋，有说黄龙士中盘十三段的，也有说范施不过业6的，但是也有人说公道话：不到棋盘上下一下，谁也不知道他到底有多强。对林海峰的评价也类似：林先生的棋看起来一点也不厉害，可是你坐到棋盘对面，就能感觉到他的力量了。2、我看了第一局樊麾（黑）对AlphaGo的棋谱。白136，居然在围中腹，俨然宇宙流的架势。通盘没有劫争，没有转换，不知道为什么。按理说，他们这种棋手，劫争、转换是必然的啊。眼看着要输棋，也不用胜负手，就这么输掉了，太奇怪了。难道AlphaGo的形势判断、局面控制能力都非常强？劫争、转换、惩罚无理手，无论哪个都很强？按说不应该啊。一众职业棋手说他是先二的水平，未免太托大了。就算是柯洁对阵樊麾，也没有横扫五蛋的把握吧？3、刚看了AlphaGo对战李世石的新闻发布会，DeepMind信心满满，自认为胜负五五开。不知道他们为什么这么牛，难道对樊没有出全力？4、要跟AlphaGo对局，必须进行战斗，铺地板肯定是不行的，一定要做劫、转换。李昌镐上场也不一定必胜，因为他的看家本领是不出错；老聂上场估计不行，因为他虽然前五十步天下第一，但是后半盘的漏招太多；曹燕子、古大力之类的上去，估计收拾AlphaGo就像收拾菜一样，说不定摆上两子都能赢。所以说，这次比赛，李世石必胜！5、期待三月的对局，我相信李世石会赢。他肯定会做战、纠缠、劫争、转换，希望电脑能拿下一局，要是成了黔之驴的话，就太无趣了。6、好在很快就要和李世石比赛了。是骡子是马，拉出来遛遛。我觉得李世石肯定能拿下来，但是，围棋能坚持几年呢？也许五年，也许十年，但绝对不是遥遥无期了。&有感于DeepMind击败围棋职业选手 &
&&围棋之幸与不幸 &&关于AlphaGo战胜职业棋手的一些评论 &&&千年未有之大变局，我们适逢其会了。&&& PS：居然置顶了。那就补充一些信息。现在网络上对这件事情的讨论很多、很热烈，但是坦率地说，价值并不大——因为绝大部分都是事后诸葛亮。另外几个就是当事人了：DeepMind信心十足，当然你可以认为他是在给自己打气；樊麾认为对手非常强大，当然你可以认为他是在给自己的失败找借口；李世石认为自己肯定赢，但是他没有任何对手的有效信息，AlphaGo和樊麾的那几盘棋能够告诉李的信息量基本为零。我只见到一个局外人预见到了这件事情。2014年底，他就认为现有技术已经可以使得电脑在围棋上战胜人类了。所以，他的意见是值得考虑的——他认为，这次李世石很可能会输的。马骏编辑于
&立个FLAG，能战胜。虽然AlphaGO和樊麾比赛的时候，棋力是弱职业选手水平，但已经证明这条路走对了（更重要的是，终于有大公司投钱搞围棋AI了），接下来提高水平只是时间问题。虽然从去年10月到今年3月，AlphaGO是否已经进步了足够多能够战胜李世石，我也没有100%的把握，但这不重要。是今年3月超过，还是再过几个月超过，长期来看无关紧要，重要的是在不远的将来，AI和人类围棋水平的差距，必将达到赛跑水平的差距。所以我这次先大胆投给AlphaGO了。附一个我2014年立的FLAG，当时大家对围棋AI的前景还很悲观：围棋作为唯一一种电脑下不赢人的大众棋类，是何原因导致？以及量子计算机出现后有无可能？ - 马骏的回答马骏 &发布于
： &以目前的硬件水平，已经足以在围棋上击败人类了，根本没量子计算机什么事。目前下不过人类，只是因为没人去研究围棋算法，毕竟在欧美不够流行。 &这个新闻里的算法是非常非常粗糙的，训练集也很小，就已经有很好的效果了。只要有人愿意出钱研究，战胜职业棋手只是时间问题。&&&
相关专题：
转载本文请联系原作者获取授权，同时请注明本文来自姬扬科学网博客。链接地址：
上一篇：下一篇：
当前推荐数：23
评论 ( 个评论)
扫一扫，分享此博文
作者的精选博文
作者的其他最新博文
热门博文导读
Powered by
Copyright &休闲娱乐生活服务其他类别
DeepMind AlphaGo Zero引爆业内，创造者现身Reddit问答选自Reddit昨日，DeepMind 在《自然》杂志上发表了一篇论文，正式推出人工智能围棋程序 AlphaGo 的最新版本 AlphaGo Zero。同时，在 DeepMind 发布的官方博客中，DeepMind 强化学习团队负责人、AlphaGo 项目负责人 David Silver 视频介绍了最新的 AlphaGo Zero。今天，David Silver 与团队另一成员 Julian Schrittwieser 代表 AlphaGo 创造者在 Reddit 上回答了读者的一系列问题。本文对这些问答作了编译介绍。David Silver 视频介绍 AlphaGo Zero以下为 David Silver 与 Julian Schrittwieser 代表 AlphaGo 创造团队在 Reddit 上的问答：1. 为什么 AlphaGo Zero 的训练如此稳定？深度强化学习极其不稳定且易于遗忘，自我对弈（self-play）也是，两者的结合如果没有很好的（基于模仿的）初始化和大量人类棋谱将是一个灾难。但是 AlphaGo Zero 从零开始，并且没有借助人类棋谱来防止遗忘或死循环。论文对于这点没有涉及，因此你们是如何做到的？David Silver：相较于典型的（无模型）算法，如策略梯度或者 Q 学习，AlphaGo Zero 采用了一种相当不同的深度强化学习方法。借助 AlphaGo 搜索，我们显著提升了策略和自我对弈的结果，接着我们使用简单的基于梯度的更新训练下一个策略+价值网络。这要比累加的、基于梯度的策略提升更加稳定，并且不会遗忘先前的成果。2. 你认为 AlphaGo 能解决 Igo Hatsuyoron 120 这个「史上最难死活题」吗？即赢取一个给定的中局或者确定一个现有解决方案（如 http://igohatsuyoron120.de/.htm）？David Silver：我们刚刚请教了樊麾，他认为 AlphaGo 会解决这个问题，但更为有趣的是 AlphaGo 能否找到书中的答案，或者我们想不到的方案。而这正是我们在 AlphaGo 的训练中多次目睹的事情。3. 你们认为围棋与星际争霸 2 哪个更有难度？面临的最大潜在技术障碍是什么？正式更新什么时候出来？Julian Schrittwieser：我们宣布开放星际争霸 2 环境刚过去几个星期，所以现在还处于早期阶段。星际争霸的行动空间确实要比围棋更具挑战性，因为其观察空间要远大于围棋。从技术上讲，我认为两者最大的区别之一在于围棋是一种完美信息博弈，而星际争霸因为有战争迷雾，属于不完美信息博弈。4. 你觉得数据比算法更重要吗？不过你关于 AlphaGo Zero 的新论文却暗示了另外的含义。Julian Schrittwieser：我觉得目前算法仍然比数据更重要，只要看看 AlphaGo Zero 比之前几个版本的训练效率高出那么多就能理解。而且我认为在未来，数据在训练效率上的重要性也会大有提升。5. 由于整个管道只在模型的最新最好版本上展开自我对弈，你们认为模型在使用具体的 SGD 算法更新参数空间时存在过拟合风险吗？看起来最后的模型游戏过程中，模型会稍微依赖于随机初始化权重以及实际面对的游戏状态（作为随机行动采样的结果）。David Silver：实际上，表征也很可能在其他选择上表现良好。但是我们有 3 个理由使用堆叠的观测历史：（1）它在其它领域（比如 Atari）的常用输入表征是一致的；（2）我们需要一些历史来表征 ko；（3）了解对手最近输入位置的历史很有用，这可充当一种注意力机制（即注意对手的想法很重要）。6. 这会是 AlphaGo 的最终迭代版本吗？David Silver：我们已经停止了强化 AlphaGo 的积极研究，但仍保留了研究试验台，以供 DeepMind 人员验证新思路和新算法。7. DeepMind 和 Facebook 都在大力研究强化学习，你认为是什么令 AlphaGo 的表现能如此快速地提升? 此外对于机器学习前沿，特别是强化学习，其发展趋势如何？
上一页&1共2页热门新闻更多
实时热点榜单热门视频发现好货
阅读下一篇视频推荐4天走完人类千年棋史的AlphaGo Zero可以用来炒股么？
从昨天早上开始，就被AlphaGo Zero的消息刷屏了，DeepMind公司最新的论文显示，最新版本的AlphaGo，完全抛弃了人类棋谱，实现了从零开始学习。而在今天上午，原本答应在2017年年底公布AlphaGo技术的DeepMind团队，终于发布了相关论文，公开了AlphaGo Zero背后的技术。AlphaGo Zero 最大的不同就是处处不同对于棋类问题来说，在蒙特卡洛树搜索的框架下，实现从零开始学习，此前小智君推测过，这是可行的。当今年初Master推出时，就曾以为这个新系统可能实现了从零开始学习，可惜根据DeepMind后来透露的消息，Master并没有完全抛弃人类棋谱，而是在以前系统的基础上，通过强化学习提高系统的水平，虽然人类棋谱的作用越来越弱，但是启动还是学习了人类棋谱，并没有实现“冷”启动。根据DeepMind透露的消息，AlphaGo Zero不但抛弃了人类棋谱，实现了从零开始学习，连以前使用的人类设计的特征也抛弃了，直接用棋盘上的黑白棋作为输入，可以说是把人类抛弃的彻彻底底，除了围棋规则外，不使用人类的任何数据和知识了。仅通过3天训练，就可以战胜和李世石下棋时的AlphaGo，而经过40天的训练后，则可以打败与柯洁下棋时的AlphaGo了。真是佩服DeepMind的这种“把革命进行到底”的作风，可以说是把计算机围棋做到了极致。那么AlphaGo Zero与AlphaGo都有哪些主要的差别呢？1、在训练中不再依靠人类棋谱。AlphaGo在训练中，先用人类棋谱进行训练，然后再通过自我互博的方法自我提高。而AlphaGo Zero直接就采用自我互博的方式进行学习，在蒙特卡洛树搜索的框架下，一点点提高自己的水平。2、不再使用人工设计的特征作为输入。在AlphaGo中，输入的是经过人工设计的特征，每个落子位置，根据该点及其周围的棋的类型（黑棋、白棋、空白等）组成不同的输入模式。而AlphaGo Zero则直接把棋盘上的黑白棋作为输入。这一点得益于后边介绍的神经网络结构的变化，使得神经网络层数更深，提取特征的能力更强。}

淘宝游戏网