阿尔法狗下棋视频如果天天和自己下棋，是不是功力提高的特别快

点击联系发帖人 时间：2017-08-10 16:20

阿尔法狗怎么下棋

小弟不才，想给jrs们说下阿尔法狗下棋的原理
1104回复/11亮 442433浏览
最近街上关注人机大战的jrs很多，本jr感受到了很深的共鸣。虽然我一点都不懂围棋，但是从阿尔法狗横空出世以来，它的每条新闻我都会密切关注，曾经花过一些时间去研读谷歌发表在Nature的论文，以及其他优秀的中文原理科普，想在步行街也给家人们讲讲这条狗是如何下棋的。小弟只是某985在读的一个普通计算机系本科生，不是什么大牛，只是对这个领域有很强的兴趣，如果讲的有纰漏或者错误，还请各位不吝赐教，接受任何批评，但是请各位不要人身攻击哈。本文意在科普，所以会尽量不涉及专业术语，街上有很多和我一样的大学生或者高中生，如果能激发更多人对机器学习等领域的兴趣就最好了，看懂这篇文章不需要任何围棋基础，可能会需要一点点点点点的数理基础。首先说几个题外话....1. 虽然阿尔法狗的成就有目共睹，大家完全不用担心什么“AI统治人类”之类的东西，因为现在存在的人工智能都只是”弱人工智能“，即在某项领域比人类强，在所有领域都强于人类的（所谓的”更高级生物“）的AI还差了十万八千里。2. 谷歌在深度学习领域的成就全世界都会承认，但上次看到街上有些亮评借谷歌贬低百度的，比如”百度只会卖假药“之类的，虽然我也不喜欢百度，我日常几乎从没用过，也对它的那些丑闻深恶痛绝，但是实际上百度的人工智能水平也可以说是世界前列了，以偏概全一向是街上的风气，只是希望能有更多人客观一些.....进入正题：1.首先，先说一下阿尔法狗在围棋领域能赢下最强人类的意义吧。任何博弈类游戏，对于机器来说，想赢下人类都有一个极其简单的方法，就是遍历所有可能性，比如五子棋，机器可以计算出所有的可能结果，这样每一步都可以下出最优的落子。但是为什么围棋又不行呢？因为围棋的可能性实在是太多了！！！比宇宙中所有的原子加起来还多，即使是世界上最快的计算机也没法全部遍历，所以在围棋上，只有借助人工智能的方法，让机器学会”下棋“，才有可能打败人类。一直以来，围棋AI都没有能战胜过职业棋手，所以围棋一直被称为”人类最难的游戏“，”人类智慧最后一个堡垒“之类的......而阿尔法狗的横空出世改变了这个格局。那它是怎么学会”下棋“的？2. 让我们从头开始，现在你是一个围棋菜鸡，对于围棋一无所知，你甚至看不懂围棋的规则，但是你有无与伦比的记忆力。好了别懵逼了比赛现在开始！这时候除了五彩懵逼，你还会做什么？唯有在棋盘上随便找个位置XJB下了，幸运的是，对面的人也菜的抠脚，你俩下了三天三夜之后你居然侥幸赢了，喜大普奔！庆祝喝香槟之余，别忘了你最终的目的是要学会下棋，是要成为打败柯洁的男人！你开始镇静下来，思考刚才那盘棋，由于你的超强记忆力，你可以清楚地记住你在每一个局面下的每一个落子，由于你只下过这一盘棋，而且赢了，所以你只能认为你上一盘中，所有的落子都是“好的”，你可以给这些落子标记为（Si,Ai）即在标记为Si的棋局下，你选择下了Ai这一步，并给这些选择打打分，让他们有个所谓的“分数”，因此当你再次面对似曾相识的局面时，你会倾向于选择那些“好的”落子，即“分数”高的落子，而对于没出现过的局面，很简单还是xjb下。当你下了一百万盘棋局之后，这时候你已经是老司机了，下第一百万零一局的时候，由于你超强的记忆力，你完全可以在脑海中模拟出那一百万盘棋的所有场景，并选择“分数”高的落子！随着你下的越来越多，那些看起来有前途的方案就越来越多......3. 上面的所谓的脑海中模拟一百万棋局的算法，就是蒙特卡洛搜索树，阿尔法狗的主要框架，然而这个算法和它名字一样，主要靠蒙，我们就称为“蒙树”好了，面对没碰到过的情况只能蒙，而且就算你下了一亿局，也是自己按照这个规则xjb下的而已，不从大师那里汲取经验，又怎么打败他们呢？围棋的情况浩如烟海，一百万盘棋局是远远不够的，所以我们要给狗加上“大脑”，而且还是两个。4. 所谓的“大脑”就是深度学习领域里的卷积神经网络，当然我们就用大脑来指代。对于第一个大脑，谷歌从国外的围棋对战平台中选取了三千万张棋局，每一张都是智慧的结晶，交给机器去训练，那我们要得到什么呢？要得到的就是面对一个棋局的某个情况，那些人类高手会怎么下，像这个图一样，这个图的意思就是，面对这个局面，那些3000万个棋谱中的人类高手有60%的可能下标记60的那一步，有35%的可能下35那一步......这就是大脑一号的训练，这样训练之后，起码不会只xjb蒙了，向人类高手学习一个，学习面对某些局面的落子。
5.接下来就是第二个大脑，第一个大脑用来选择落子，第二个呢？用来评估局面，是对整个棋局的输赢概率进行评判，比如这个图，颜色越深就代表赢的可能性越大，而要训练这个大脑，人类的棋谱的数量已经无法胜任了，大家都知道金庸里的神功“左右互搏”，就是它了，阿尔法狗会自己和自己下棋，不断产生新的棋局，每一次自我对弈就是对两个大脑的一次训练，一次自我进化...........有了蒙树和两个大脑，终于成就了现在的阿尔法狗.......总结一下阿尔法狗下棋的流程：（1）通过第一个大脑，找出下一步棋的数个备选走法（人类高手会怎么走）（2）通过“蒙树”不断模拟走下去的情况，找出个相对最优的走法（3）通过第二个大脑，对整个棋局局势进行评估，进一步影响下一步走法（4）两个大脑结合，反复模拟直到最深处，找出最终的走法.....这就是阿尔法狗走一步棋的思考过程后记：心血来潮写了这篇.....写的不好大家多多宽容，参考的文章除了谷歌那篇nature还有知乎上的一些文章，大家有兴趣也可以看看.....总而言之阿尔法狗其实没有创新的算法（当然这些结合以及各种优化也是谷歌天才们的杰出表现），量变产生质变，大量训练，自我进化，终于成了现在的无敌阿尔法狗，我相信谷歌花费了大量的财力和人力来对它进行训练，其实是一件挺劳民伤财的事情，但这件里程碑式的作品注定被历史铭记.....PS: 居然有那么多jr支持，万分感谢，受宠若惊，再次谢谢了！！！步行街福利多，故事多，偶尔也说点其他东西和jr们分享一下，感觉很温暖！！PPS：说明一下，这篇帖子说的是1.0版本的Alpha Go，即战胜李世乭的版本，一些Jr指出在2.0版本中放弃了监督学习和蒙特卡洛搜索树，有兴趣的jr可以参考一下，我打算明天看看，哈哈。还有这只是科普向的，比较浅显，如果有计算机专业的同学想深入了解，还是建议读论文哈。PPPS：很多jr看我的ID以为我是湖北人。。。其实我虽然在湖北上大学，并不是湖北人，这个ID完全是因为李白那首诗“且就洞庭赊月色，将船买酒白云边”hh，和那个牌子的酒没有关系~PPPPS：是在没想帖子会那么火.....受宠若惊，回复速度增长实在是太快..虽然已经尽力，但实在没法一一回复，没想到这个帖子还惊动了其它高人，有个top2的博士师兄另开一贴，进一步说明了阿尔法狗的算法，通俗有趣！@ 链接在这：水平比我高出太多，要向他看齐hh，希望大家支持下哈GMT檢測語言阿尔巴尼亚语阿拉伯语阿塞拜疆语爱尔兰语爱沙尼亚语巴斯克语白俄罗斯语保加利亚语冰岛语波兰语波斯尼亚语波斯语布尔语(南非荷兰语)丹麦语德语俄语法语菲律宾语芬兰语高棉语格鲁吉亚语古吉拉特语哈萨克语海地克里奥尔语韩语豪萨语荷兰语加利西亚语加泰罗尼亚语捷克语卡纳达语克罗地亚语拉丁语拉脱维亚语老挝语立陶宛语罗马尼亚语马尔加什语马耳他语马拉地语马拉雅拉姆语马来语马其顿语毛利语蒙古语孟加拉语缅甸语苗语南非祖鲁语尼泊尔语挪威语旁遮普语葡萄牙语齐切瓦语日语瑞典语塞尔维亚语塞索托语僧伽罗语世界语斯洛伐克语斯洛文尼亚语斯瓦希里语宿务语索马里语塔吉克语泰卢固语泰米尔语泰语土耳其语威尔士语乌尔都语乌克兰语乌兹别克语希伯来语希腊语西班牙语匈牙利语亚美尼亚语伊博语意大利语意第绪语印地语印尼巽他语印尼语印尼爪哇语英语约鲁巴语越南语中文简体中文繁体阿尔巴尼亚语阿拉伯语阿塞拜疆语爱尔兰语爱沙尼亚语巴斯克语白俄罗斯语保加利亚语冰岛语波兰语波斯尼亚语波斯语布尔语(南非荷兰语)丹麦语德语俄语法语菲律宾语芬兰语高棉语格鲁吉亚语古吉拉特语哈萨克语海地克里奥尔语韩语豪萨语荷兰语加利西亚语加泰罗尼亚语捷克语卡纳达语克罗地亚语拉丁语拉脱维亚语老挝语立陶宛语罗马尼亚语马尔加什语马耳他语马拉地语马拉雅拉姆语马来语马其顿语毛利语蒙古语孟加拉语缅甸语苗语南非祖鲁语尼泊尔语挪威语旁遮普语葡萄牙语齐切瓦语日语瑞典语塞尔维亚语塞索托语僧伽罗语世界语斯洛伐克语斯洛文尼亚语斯瓦希里语宿务语索马里语塔吉克语泰卢固语泰米尔语泰语土耳其语威尔士语乌尔都语乌克兰语乌兹别克语希伯来语希腊语西班牙语匈牙利语亚美尼亚语伊博语意大利语意第绪语印地语印尼巽他语印尼语印尼爪哇语英语约鲁巴语越南语中文简体中文繁体
語言功能限200個字符 :
: 關閉[ 此帖被买酒白云边在 10:50修改 ]
赞赏了 100 虎扑币赞赏了 20 虎扑币已有JRs，赞赏了 300 虎扑币
这些回帖亮了
引用6楼 @ 发表的:但是如果是这样的话，alphago的选择项的前提是以前的人类高手走过这步，alphago怎么会走出很多高手认为不可能下的棋？我提到了，阿尔法狗在用人类的棋谱训练完后，又自我对弈了很多很多局，产生了很多新的棋谱，自我进化才是它最可怕的地方....
引用26楼 @ 发表的:楼主。。。机器有可能在你画我猜上战胜人类吗TX哈哈哈你这个问题问的太好了，实际上“看懂图片”也是人工智能一个重要方向，对于一张小猫的图片，人类肯定能直接认出来是猫，而对机器来说图片就是一个个像素点，所以怎么提取特征....怎么识别又是一门学问，但以现在的发展情况看，“你画我猜”我妥妥赌人类赢
很好的科普文。不是搞这个的，对错不知，但自圆其说，并且生动易懂。赞。发自手机虎扑
引用36楼 @ 发表的:请问围棋一共有多少种肯定性的棋局，为什么不能穷举呢？兄弟，围棋的可能性大约是10的360次方个，比宇宙中所有的原子加起来还要多
引用19楼 @ 发表的:看完了，对于懂一点围棋不懂计算机的人而言……发现这个步骤……和人类学棋步骤很像啊……只不过人类无法左右互博和超强计算和超强记忆……其实按这个思路的话，狗比人还要“笨”一些，因为狗的强大是因为训练的数据量实在是太大，而人类可能会从一个棋谱中悟出很多其他东西（其实我不懂围棋hhh）
估计发知乎能火，但在步行街我还是要帮顶。
引用1楼 @ 发表的:楼主你好啊你好....估计是写的太长了没人看233
楼主你好啊
楼主。。。机器有可能在你画我猜上战胜人类吗TX
围棋以变化多端为明，阿尔法狗所带来的影响不止对于围棋。而是预示着现在大数据计算跟之前比发生了巨大的进步！打个例子，国际象棋在80年代就被ibm的深蓝给统治了一样。在那个时候深蓝代表着当时的数据计算的巅峰。未来肯定会应用到其他行业和应用中！
但是如果是这样的话，alphago的选择项的前提是以前的人类高手走过这步，alphago怎么会走出很多高手认为不可能下的棋？
楼主你好啊
引用1楼 @ 发表的:楼主你好啊你好....估计是写的太长了没人看233
顶楼主一下
顶楼主，不错不错。我是除楼主外的的沙发么？
很专业，看不懂，哈哈发自手机虎扑
但是如果是这样的话，alphago的选择项的前提是以前的人类高手走过这步，alphago怎么会走出很多高手认为不可能下的棋？
引用内容由于违规已被删除哈哈有道理.....不过谢谢！
引用3楼 @ 发表的:顶楼主一下谢谢谢谢谢！
引用6楼 @ 发表的:但是如果是这样的话，alphago的选择项的前提是以前的人类高手走过这步，alphago怎么会走出很多高手认为不可能下的棋？我提到了，阿尔法狗在用人类的棋谱训练完后，又自我对弈了很多很多局，产生了很多新的棋谱，自我进化才是它最可怕的地方....
很好的科普文。不是搞这个的，对错不知，但自圆其说，并且生动易懂。赞。发自手机虎扑
感谢楼主科普
DDDDDD 国外计算机专业在读
支持普及贴
引用10楼 @ 发表的:很好的科普文。不是搞这个的，对错不知，但自圆其说，并且生动易懂。赞。哈哈哈谢谢！希望推荐一下哈
引用11楼 @ 发表的:感谢楼主科普谢谢！喜欢就推荐一下吧！
引用13楼 @ 发表的:支持普及贴谢谢，希望能推荐一下么么哒
技术贴，顶一个！
狗估计已经放弃了蒙了，这次的是单机版
看完了，对于懂一点围棋不懂计算机的人而言……发现这个步骤……和人类学棋步骤很像啊……只不过人类无法左右互博和超强计算和超强记忆……
围棋以变化多端为明，阿尔法狗所带来的影响不止对于围棋。而是预示着现在大数据计算跟之前比发生了巨大的进步！打个例子，国际象棋在80年代就被ibm的深蓝给统治了一样。在那个时候深蓝代表着当时的数据计算的巅峰。未来肯定会应用到其他行业和应用中！
您需要登录后才可以回复，请
& 允许多选
256人参加识货团购105.00元170人参加识货团购449.00元67人参加识货团购399.00元107人参加识货团购237.00元382人参加识货团购719.00元217人参加识货团购119.00元125人参加识货团购119.00元641人参加识货团购775.00元429人参加识货团购239.00元924人参加识货团购699.00元57人参加识货团购229.00元155人参加识货团购999.00元我是不是快死了，天天腿水肿，肿的跟萝卜是的，特别疼，一跳一跳的疼【沈阳吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名：今日本吧第个签到，本吧因你更精彩，明天继续来努力！
本吧签到人数：0成为超级会员，使用一键签到本月漏签0次！成为超级会员，赠送8张补签卡连续签到：天&&累计签到：天超级会员单次开通12个月以上，赠送连续签到卡3张
关注：728,994贴子：
我是不是快死了，天天腿水肿，肿收藏
我是不是快死了，天天腿水肿，肿的跟萝卜是的，特别疼，一跳一跳的疼
智联招聘,沈阳高端人才招聘网站,每天更新350万高薪职位招聘信息,年薪30万起!24小时极速反馈,立即登录填写简历,快速找到好工作!
放放血？疼……还是去医院吧
老姐。我陪你去医院。
我也肿可是我不疼
不去医院等啥呢
登录百度帐号推荐应用如果两个阿尔法狗对下是什么结果？ - 知乎6被浏览200分享邀请回答0添加评论分享收藏感谢收起0添加评论分享收藏感谢收起}

淘宝游戏网