从零开始，AlphaGo Zero是怎样探索围棋极限探索第一季的

点击联系发帖人 时间：2017-10-24 09:28

探索极限基地官网

人类：“共同探索围棋极限！”新AlphaGo：“不了吧”
PingWest品玩
5月27日，端午节假期的前一天，少年棋手柯洁和AlphaGo的故事在乌镇结束了。在过去的几天里，AlphaGo战胜了当时这颗星球上最强的人类棋手。柯洁说：要专注于和人类下棋，不再和机器下棋了。AlphaGo的开发团队说：我们要专注于将AlphaGo的技术应用到其它领域，AlphaGo也不会再和人类下棋了。虽然更多的是唏嘘，但人类围棋界还是放下了心来。终于不用再和这个疯狂而变态的选手较劲了。然而，5个月后，AlphaGo又有了新成果，这一次还是和围棋有关。如果说AlphaGo战胜柯洁是机器与人类的战争，那么这一次AlphaGo Zero的突破更像是某种客观规律的战争。AlphaGo似乎触摸到了围棋这一游戏的尽头。自学成才的AlphaGo ZeroAlphaGo不是早就战胜人类了么？DeepMind不是说不再让AlphaGo和人类下棋了吗？没错，这一次AlphaGo的大新闻，确实和人类“没什么关系”。DeepMind中AlphaGo项目组的主要负责人David Silver介绍，AlpheGo Zero目前已经是这个世界上最聪明的计算机棋手，它连续击败了此前战胜围棋世界冠军李世乭的AlphaGo Lee版本100次。摈弃人类棋谱谷歌AlphaGo2.0版本来了
关键字: AlphaGoAlphaGo2.0深度学习
1月26日，谷歌Deep Mind公司CEO哈萨比斯在17日出席德国慕尼黑举行的DLD（数字、生活、设计）创新大会，宣布推出真正2.0版本的AlphaGo。新版AlphaGo的特点是摈弃了人类棋谱，只靠深度学习的方式成长起来挑战围棋的极限。哈萨比斯还说：新的尝试会给人类带来新的挑战课题，即“理解AlphaGo的手法，探索‘深度学习’方式的极限，臻至‘围棋之神’的境界”。
跨年之际，“新版”AlphaGo蒙面出现在中韩对弈网络，对人类顶尖职业棋手取得了60比0的全胜战绩，但此版本的AlphaGo还不是2.0版本。1.0版本的AlphaGo是“深度学习”人类棋谱得出围棋手数的估值，但1.0版本的AlphaGo所走招法其实并不脱人类理解，而且也是人类棋手曾下过的棋。如果1.0版本的AlphaGo完善了，就意味着得出了接近完美的围棋手数估值函数，而2.0版本AlphaGo就利用这个估值函数自我对局和“深度学习”，不再受人类棋谱的局限，下出真正属于“人工智能”的围棋。
韩国亚洲大学电子工程学教授甘东根（音）说：“谷歌公司大概认为只依据人类棋谱很难真正超越人类的水准，所以寻找新的思路、新的突破口。但是仅靠自我学习能否得出水平更为高超的围棋AI，还有待观察。”
据悉，不仅谷歌Deep Mind公司，开发“刑天”的中国公司也在做相似的尝试。这家公司的另一款围棋AI“骊龙”，不依据人类棋谱只靠自我“深度学习”增长棋力。目前，“骊龙”在韩国“韩Q对弈”对世界顶尖棋手取得了80%以上的胜率，目前这一胜率还不如“刑天”的90%以上胜率。和“骊龙”交过手的一位职业棋手说：“棋风非常具有攻击性，变招很多。”
此外，哈萨比斯在DLD（数字、生活、设计）创新大会上说：“AlphaGo为谷歌公司节省了电力消耗。谷歌数据中心每天的用电量惊人，我们就用AlphaGo的算法合理配置冷却装置。结果用于冷却装置的能源消耗减少40%，而整个数据中心的总电力消耗减少了15%。”
哈萨比斯还说：“AI是培养人类的创造性，真正开发潜能的惊人的工具。人类和AI的能力结合起来，可以成就伟大的事物。”
1月20日谷歌创始人谢尔盖-布林出席瑞士举行的“2017达沃斯论坛”，他说：“很难准确估测人工智能的极限和影响力。但是人类通过人工智能，可以把时间用在更具创造力和有意义的事情上。”
我就说嘛，人工智能不该成为棋手的阻碍或者是敌人，它应该是良师益友，说到底，围棋，最终还应该是人下，但可以通过人工智能不断探索，不断替人类自己发掘，这样围棋才能越来越好。
原标题：谷歌推出真正2.0版本AlphaGo 摈弃人类棋谱
责任编辑:王一鸣从零开始，AlphaGo Zero是怎样探索围棋极限的？其进步意义在哪？
从零开始，AlphaGo Zero是怎样探索围棋极限的？其进步意义在哪？
日，DeepMind在《Nature》杂志发布了其最新研究成果阿尔法元(AlphaGo Zero)，题目很吓人，叫《无须人类知识掌握围棋》，并正式推出人工智能围棋程序的一个最新版——阿尔法元(AlphaGo Zero)，让业界为之一震。新版的AlphaGo计算能力空前强大，完全从零开始，不需要任何历史棋谱的指引，3天超越AlphaGo李世石版本，21天达到Master水平。百战百胜，棋艺增长远超阿法狗，击溃阿尔法狗100-0。这是迄今最强大的围棋程序：不需要参考人类任何的先验知识，完全靠自己一个人强化学习（reinforcement learning）和参悟，直接采用自对弈进行训练。新一代的达到这样一个水准，只需要在4个TPU上，花三天时间，自己左右互搏490万棋局。而它的哥哥阿法狗，需要在48个TPU上，花几个月的时间，学习三千万棋局，才打败人类。为什么阿尔法元能够完全自己学习？它依靠的到底是什么？为什么阿尔法元能够完全自己学习？AlphaGo的前几代版本，一开始用上千盘人类业余和专业棋手的棋谱进行训练，学习如何下围棋。AlphaGo Zero则跳过了这个步骤，自我对弈学习下棋，完全从乱下开始。AlphaGo Zero之所以能当自己的老师，是用了一种叫强化学习的新模式。AlphaGo Zero 采用了一个带参数的深度神经网络，对棋盘上的每个位置，都会与那个带参数的神经网络相结合，使用蒙特卡洛搜索树来搜索出每一步落子可能性的价值，并且经由一个判断环节来选择其中最可能赢的落子方式。输入的信息是位置信息和历史下法，输出的信息是可以落子的可能位置和每个可能位置的价值。系统从一个对围棋一无所知的神经网络开始，将该神经网络和一个强力搜索算法结合，自我对弈。在对弈过程中，神经网络不断调整、升级，预测每一步落子和最终的胜利者。AlphaGo Zero 完全不使用人类的经验棋局和定式，只是从基本规则开始摸索，完全自发学习。升级后的神经网络与搜索网络结合成一个更强的新版本AlphaGo Zero，如此往复循环。每过一轮，系统的表现就提高了一点点，自我对弈的质量也提高了一点点。神经网络越来越准确，AlphaGo Zero的版本也越来越强。使用了更先进的算法和原理，让AlphaGo Zero的程序性能本身更加优秀，而不是等待硬件算力技术的提升。虽然这种技术比此前所有版本的AlphaGo都更为强大，但是训练完成的AlphaGo Zero只能给人们发现它自学成才的许多围棋打法与人类上千年来总结的知识是不谋而合的，比如打劫、征子、棋形、布局在对角等，都有人类围棋的影子。在人类下象棋的历史中，曾经发明过许多“定式”。这可以看成是局部的最优解，双方只要都按照这种定式来下棋，就会取得相同的优势。在十个小时左右的时候，AlphaGo Zero 发现了简单的定式；在十六个小时左右，发现了“小雪崩定式”。之后随着棋局的增多，AlphaGo Zero 的棋力越来越强，直到超过了人类目前能够掌握的棋力，超越了之前的世界最强AlphaGo。所以人类棋手也不用伤心，这恰恰证明人类在过去的几千年里摸索出了围棋这一游戏的“自然规律”，而人工智能与人类棋手的对比就像是汽车和跑步。每下一步仅需要思考是0.4秒的AlphaGo Zero所产生的美感与人类在紧张对弈时的美感是完全不同的，就像没有人会把F1方程式当赛跑比赛看一样。它依靠的到底是什么？报道中常说的“自学成才”其实表达的不算很准确，下棋有多少种走法，机器可以判断，人却没有那么大的计算量。围棋的下法总计3的361次方，这个数字极其庞大，比整个宇宙原子总和还要多，因此利用暴力穷举法来验证所有走法的可行性显然不切实际。David Silver说，很多人相信在人工智能的应用中算力和数据是更重要的，但在AlphaGo Zero中他们认识到了算法的重要性远高于算力和数据——在AlphaGo Zero中，团队投入的算力比打造上一个版本的AlphaGo少使用了一个数量级的算力。AlphaGo广为人知的三个部分分别是策略网络、价值网络和蒙特卡洛树搜索。第一个部分：策略网络它所代表的是人类的经验、历史的经验。从公开的论文来看，AlphaGo的策略网络准确度基本在57%。这个比喻未必特别精确，但类比考试成绩，如果期末考试才考了57分，这个成绩在人类世界就有点拿不出手了，这能说明什么？这个说明了策略网络和人类可以学到的相比并不是特别厉害，所以Zero在Master之后必然从头开始寻找更优策略。第二个部分：价值网络根据实践，价值网络特别不好训练，很难获得一个质量特别好的结果；也就是说价值网络评估当前棋局形势的能力其实也不如人类。第三个部分：蒙特卡洛树搜索人类每下一步棋，能考虑到几十步已经是顶尖的高手，但AlphaGo使用蒙特卡洛树搜索却可以搜索几十万、几千万、几亿步。那不就是高手中的高高手了嘛！所以综上所述，在策略网络和价值网络都不如人类的情况下，AlphaGo为什么还能这么厉害？最根本的原因还是在于它使用的蒙特卡罗树搜索这块能力比人强。这个再次证明了人脑的强大！因AlphaGo Zero是程序员开发出来的！程序员用算法大脑打败了人类职业棋手几千年积累的经验大脑！这足以说明，在任何需要计算的领域，一定有比经验更可靠、更精确、价值最大的最优选择！下面举个浅例来简单说明，首先我们观察棋盘，容易发现它是一个中心的对称的，也就是假设黑子第一手下在右上角星位，白子第一手下在左下角星位，实质上和第一手下在左下角星位，白子第一手下在右上角星位是一样的，只要棋盘顺时针转180度，盘面就完全一样，而在围棋的下法里，这算两种下法，这样我们就能省去接近75%的重复图形。然而仅仅减去这么多显然还不够，我们发现有些棋显然无意义或不能放，比如按照棋规，棋不能放在对方的眼位里，又或者送给别人征子的自杀棋(弃子不算)，这些算起来可以排除将近99.9%的无用的计算，但这仍然不够，所以下面就要形成一些定式，即虽然你不知道所有走法的对错，但你知道某些走法一定对，那你开局就往这方面去走，一旦对手走错就速败，走对了也只是均势而已。最后，大家知道随着棋盘子摆的越来越多，复杂度就急剧下降，所以胜负往往在中盘就已决定了，后期AI转用穷举法足够应对，翻盘几乎不可能。零镜观点：阿尔法狗之所以将围棋作为人工智能的试金石，因为围棋巨大的搜索空间和对棋盘位置和走子精确评估的困难，在很长时间里围棋被视作人工智能最具有挑战性的传统游戏。而阿尔法元的成功证明了记忆是最原始的存储方式，不是思考方式，它的价值含量并不高；从方法上下功夫比死记硬背强得多，可以说阿尔法元已经从样本的进化过渡到方法的进化。所以，Zero的诞生，其进步意义就是，人机大战再无意义！围棋将回归其本来面目，那是什么？
本文仅代表作者观点，不代表百度立场。系作者授权百家号发表，未经许可不得转载。
百家号最近更新：
简介: 每天三分钟，研究科技新物种！
作者最新文章孙剑解读AlphaGo Zero：围棋有了终极的解_网易科技
孙剑解读AlphaGo Zero：围棋有了终极的解
用微信扫码二维码
分享至好友和朋友圈
【网易智能讯 10月21日消息】北京时间10月19日凌晨，DeepMind公布了最新论文，发布了最新版本的AlphaGo Zero系统程序，AlphaGo Zero的特点是将价值网络和策略网络整合为一个神经网络，训练三天就能以100比0击败之前与李世石对弈的AlphaGo版本。近日，深度学习领域的专家、旷视科技首席科学家孙剑发表内部演讲，阐述了AlphaGo Zero在技术方面的创造性与创新性，其中包括&AlphaGo Zero用到的深度残差网络（Residual Network）。以下为孙剑内部演讲实录：（孙剑）大家好，我想大家这两天读了很多文章，在我进行技术解读之前，给大家阐明一些大家一直感兴趣的问题：1.&无师自通到底是不是真的无师自通，无师自通是怎么定义的？2.&基于AlphaGo Zero的增强学习算法，它到底能做什么，不能做什么？我先针对第一点无师自通来讲。实际上说它无师自通既对也不对，对的方面是说主要看无师自通怎么定义，狭义的无师自通是说AlphaGo Zero之前的系统，它有一个非常重要的步骤，就是如何开始教，如果说以前的系统有一步骤是说如何通过人类的棋谱学习人类的知识，来初始化系统，初始化以后包括自动的学习进一步改善，以前的系统是这样的。而这一次的无师自通，是把人授棋谱的过程去掉了，也就是说没有人类老师教你怎么下棋这个过程，那这个意义上来说，确实是第一次做到无师自通，这也为什么AlphaGo Zero大家这么关注的原因，也是它在学术界对工业界，大家对这个问题认识上的理解，因为其实就算如果没有做出来，研究其实是最深是你相信还是不相信，你的认识是什么样的，第一次破除了这个认识，还是之前学了很多知识，这个是脱开人的，这个是真正第一次脱离人类老师来教他怎么下棋这件事情，是无师自通的。但是如果严格定义无师自通，我们其实是说“有没有监督”来做这件事情，监督就是你怎么教这个东西。那AlphaGo这个学习是不是没有监督？如果仔细看这个系统，他还是有监督的，增强学习有非常弱监督的形式，这个意味着不是看棋谱，而是棋局的规则，定义了如果你快速模拟下一盘棋，到最后谁赢谁输这个信号作为监督的，从这个意义上说，它不是百分之百绝对的无师自通，而是通过这样一个棋，这个规则所带来的监督信号，它是一种非常弱监督的增强学习，它不是完全的无师自通。第二个解读，增强学习就算可以扩展很多别的领域，因为就算它不是百分之百不监督，如果能扩展它的领域非常了不起，这里面列一些增强学习到底有什么特性，这些特性可以是完美呈现的过程。因为围棋和打麻将或者德州扑克不一样，在围棋规则内所有信号全部是靠观测的，像打麻将或者博弈的游戏，对手是不能观测的，这也是不一样的一点。最重要的一点，是说棋可以很快速的模拟，你可以有一个模拟器，围棋就是通过计算机的方式很快下完，这是一个简单的模拟过程，非常短，可能两三百步就做完了，非常高效，可以很短时间把整个棋模拟完了，模拟完了中间所有结构可以输出来，最终的输出赢和输的信号很快就可以确定，所以这是一个非常强的假设，这件事情你到真实世界就没有那么容易。比如说增强学习可以用来研究新药品，新药品很多内部的结构需要通过搜索，搜索完以后制成药，再到真正怎么去检验这个药有效，这个闭环非常代价昂贵，非常慢，你很难像下围棋这么简单做出来。再举个例子，增强学习也可以应用于金融股票股价预测，这里非常好的一个匹配，你下棋可以匹配到买卖，交易的决策上，这里面虽然说已经很匹配场景了，但是还是不一样，你每次下一个子会对对方怎么下有影响，如果在股票市场，如果你是一个基金量比较小，对市场没有影响，这是一种做法，你只是观测一下结果，做下一部决策，这个可以做，但是也不可以非常快模拟真实，你可以拟合历史，基金量大到什么程度不影响市场，这个更难模拟，在真实世界需要预警这个东西，这个很难收集到海量的数据。有这些特色，它就决定了今天AlphaGo的系统，背后的学习算法到底可以很容易的应用在别的场景，还是不容易应用在别的场景。以上是关于AlphaGo Zero两点大的说明，下面我讲一下技术方面我们到底为什么这么看重它。我们做研究追求极简，去除复杂，这篇文章最吸引人的地方就是它从之前的到现在基本上在做减法。比如说很多搜索过程非常简化，把以前系统设计的两个网络合并成一个网络，有预测怎么落子，预测如何判断整个棋局的形势，这个网络在这次使用深度残差网络，它对输入做简化，以前输入是要人工设计一些棋盘的输入，比如这个子下过多少次，周围有几个黑子几个白子，这次是第一次把黑白子二值的图直接送进来，相当于可以直接理解成对着棋盘拍照片，把照片送给神经网络，让神经网络看着棋盘照片做决策，这个非常简单，非常优美。当然最简单的是，抛弃了刚才我说过的，从人类棋谱进行学习的过程，完全不需要人类棋谱，系统刚开始基本上随便乱下，开始如果两个AlphaGo&Zero下的话，基本上期盼是随便下子，完全和人类下棋不一样，但是随着快速的收敛，一天后两天后下的像模像样，在两三天后就已经有了人类下棋的能力，这是整个系统的概况。AlphaGo Zero的系统里面有两个核心技术，一个是拟合搜索，一个是深度残差简易神经网络，这个做了一个非常简单优美的结合就做好了，是卡罗式搜索还是用其他式搜索，这个涉及到非常古典的一个思想，这个思想在我上本科人工智能课的时候就学到的思想，当时也是下棋，棋比较简单，到今天依然是这么一个古老思想，加上一个非常强大的深度残差简易神经网络，就可以比上一代AlphaGo好非常多。这个搜索的方法是一个定制版的，是一些高级版，特定适应这个问题的版，也是通过研发迭代了很多周期才研发出来的。第二个核心技术，他们用了一个深度最深可以达到80的一个深度残差卷积神经网络，这个网络在学术上英文名词叫ResNet，这个我也是非常容幸，因为我是这个论文的作者之一，ResNet的工作是我在2015年的时候，在微软亚洲研究院领导的视觉计算小组做的工作，这个工作核心思想是我们用一个残差学习，让非常深的网络可以很好的学习，其中“非常深”是什么概念？因为以前深度学习网络大概十层、二十层到头了，很难训练出来，但是用残差网络就很好地解决了深度学习深度网络训练的问题，网络的深度从十几二十层在2015年被推到了152层。相当于层数的意思是说，神经网络是在学习一个函数，层数越深，基本上函数影射能力越强，越有效率，越有可能在有效预测一个非常复杂的影射，我们说看棋盘，后来决定在每个子，决定在每个位置落子的最有可能赢的概率，输出361的项量，这是一个非常复杂的影射，看棋我们人类是靠直觉，其实背后是一个非常复杂的函数，越深的，目前可以越能拟合，越有更强大的威力来拟合这样的函数。残差学习的方法极大程度的解决了优化问题，这也是世界上第一个上百层的网络，在2016年我们又推出了第一个上千层的网络，今天为止任何网络任何一个地区，任何不受城市限制的网络，我们这个工作也在2016年获得了CVPR最佳论文奖，当然我自己也非常高兴我们这个技术可以应用在AlphaGo&Zero系统中，我并不是跟他直接合作，这也是学术界大家为什么要发表论文的方式，大家可以交换思想，大家看到这方面思想研究成果，就可以吸收到自己的系统中来，这也是开放研究的最大的动力和魅力和威力，今天尤其是人工智能，为什么中国人工智能追赶这么快，今天人工智能是完全开源和开放的，决大成果是开源的，每一个研究员都希望不但把自己的成果公开，还把自己的训练代码公开，以至于能够让大家能够快速地重现自己的系统，这个风气是在最近的深度学习人工智能领域开的，大家在第一时间把自己的研究成果放在arxiv，而不是说等几个月后在一个学术会议上发表，这样的话极大地加速了研究的进展。我们每天早上来公司的第一件事情就是看一下Paper，今天有哪些新的很好的思想，有一些Paper发布出来了，我们会学习，我们会呈现这样的东西，这也是一个关键词是开源和开放。我现在的工作，也是一个开放的态度，开放我们的研究成果，我们今年CVPR2017年每篇结论，我们今天在7月份旷视科技发表了一篇ShuffleNet，一会儿我们会把这个论文发给大家，发布以后非常多的同行已经使用上了ShuffleNet。ShuffleNet其实也是ResNet的一种改进，但是和AlphaGo系统不一样，AlphaGo需要在一个很强大的CPU上运行，ShuffleNet是希望我们把网络运行在像手机或者切入式设备，这样低功耗，计算力比较低的平台，ShuffleNet它其实是一种专门为这种平台设计的结构优良的网络。如果我们看整个AlphaGo系统，它使用Google的一个Tensorfolw深度学习引擎，Google是一个开源的引擎，内部也有内部的版本，它用引擎才可以把系统非常高的运行，引擎非常重要，每个公司都有这样一个引擎。我们旷视科技虽然是一家创业公司，但是我们对这个东西是非常重要的，因为可以带来非常大的竞争力，我们在Tensorfolw开源半年前，就已经研究了一个叫做Brain++ 的深度学习引擎，到今天我们内部版本已经迭代到7.0版本了，这个相当于旷视科技自己的Tensorfolw。旷视是我看到唯一一家自研并全员使用深度学习引擎的公司，有了这样的引擎，我们大规模GPU的集群，才可以帮助我们训练这样的ResNet，ResNet是我们计算机视觉领域开发出来的核心技术，今天非常高兴看到它能在围棋领域里应用，之前它在自然语音识别已经有非常成功的应用，我们在Face++也有训练非常强大的ResNet，甚至比这个AlphaGo&Zero强大十倍、二十倍。还有一个问题，AlphaGo无师自通的系统是不是能解决所有问题，刚才我说了一些什么是可以学，什么不可以学。我再举个例子，比如我们公司做的人脸识别、图象识别，这些问题是可以拿这个系统做，这些是不是完全不需要大数据就可以做，不需要监督数据就可以做，今天这个问题还是不可以的，如果你去教机器怎么去识别人脸，目前并不能找到增强学习这样一个非常简单的目标，还是要人来教，到底什么是人，而且我们人来识别人脸是一个人的能力，是人在通过几千年，甚至多少万年演化出来的一种为了人生存的一种能力，你只有把不同的人类认清楚了，才有可能在这个社会上运作，这是一个人后天学到的能力，要把这种能力赋予机器，还是需要人的监督信号，包括我们今天对人工智能做的很多事情，都要学习人的一些后天人很多年积累出来的能力，不管是现在还是后天，这些任务还是要海量的数据和更多信号，今天监督学习依然是占主流的在这些研究和商业应用中。以下为孙剑博士答问：【提问】：我想问一下这一块对以后的意见部分会有怎样的影响？这方面的需求会减少还是增加？【孙剑】：这个问题是说，AlphaGo这样的系统对硬件会带来什么样的影响？这个影响，整个系统对它的要求是下降的，因为算法是提高了非常多，以前的前一代系统需要很多机器训练很多长时间才可以做好，新的AlphaGo Zero是在一台机器上，有Google的TPU来完成的，这个体现在TPU这个东西是神经网络的加速芯片，这个其实也是给大家一个信号，这样的芯片会非常强，目前业界不光是Google，包括很多家都在研究这样的深度神经网络加速芯片，我们在旷视科技FES++也在做这方面研究，如何把一个深度神经网络运行在硬件的芯片上，我们最近推出了一个基于FPGA芯片的一个智能摄象头，其实这个摄象头可以完成人脸抓拍识别的功能，FPGA芯片具有很多功能，可以把网络放在里面，但是并不是简单可以放进去，而是你需要一个网络做一些优化，让它变成最适合发挥硬件能力的形式才可以做，这也是一个研究课题。FPGA芯片下一步，就是IC的芯片，其实FPGA芯片不能做好的话，IC芯片就一定能做好，这里面是一个时间周期的问题，应该可以看到业界的发展是说越来越多的智能计算会在手机切入设备，比如像华为的Mate10，里面已经有内置的神经网络加速芯片，包括苹果或者越来越多的手机，都会有这样的能力，这个是对业界影响非常大的。【提问】：DeepMind在那篇论文里提到，这一项新的技术可以用于解决蛋白质折叠和新型材料开发，这样一些可能更加具有可能性的问题，我想能够请孙剑老师就这个问题，能不能简单地再具体介绍一下，可能在新型材料开发这样一些领域当中，有一些什么样的可能？【孙剑】：首先我不是这方面的专家，到底怎么把这些信息应用到新材料开发中，我不能做非常准确的判断，但是我刚才描述过了，什么样的东西把这项技术应用，新材料开发过程中，整个过程是完全可见的，最重要是你实验一下这个新材料，怎么能够快速地检验这个材料是成功的，如果你把这个周期能够非常快地做出来，这个技术就可以应用了，如果这个周期不能很快的做出来，或者周期很贵，你用这个东西也是不太现实的，这是我对这个问题的回答。【提问】：您提到可能无论是增强学习，还是之前的一些比较基础的深度学习，还是需要一些监督的，其实在可能一些模式越来越具体的情况下，人类现在对于大数据的依赖程度会不会在往后重要的程度越来越减弱？【孙剑】：首先大数据分有监督和无监督，对于有监督的大数据的依赖会慢慢地减弱，但是对于无监督的大数据，我们需要越多越好，比如说我们从小长大，我们看过了非常多的东西，我们学习怎么跑步，我们其实是各种传感器，听觉、感知平衡、眼睛也会看周围的道路，这么多信号都会进来，这样的大数据如果能做好，是越多越好，其实这里面也隐含了一些隐含监督信号，人工监督信号是两个概念，我们所有的研究都希望把人工监督信号降的越低越好，这是最新研究的一个热点，大家也做了各种各样的方式，隐含监督信号可能是突破人工智能真正的方向。这个是我简单的一个看法。【提问】：您能不能举一个具体的例子，比如说哪一块算人工输入返回到一些可能频段，对或者不对，这算人工给到的信号，如果是传感器收集过来的是被监督的。【孙剑】：比如我们做人脸识别中有一个非常简单的，判断一个人戴不戴眼镜，这个我们是目前无法通过无监督的方式做，就算给你一大堆有眼镜没眼镜的，机器也没法知道到底有没有眼镜，因为没有戴眼镜这个概念，是人为定义的，虽然是物理，但是是人为来定义的，这个需要有监督，告诉这些人戴眼镜，这些人叫不戴眼镜，还学习这个分裂面，把这两个划分开。真正无监督是不存在的，我们所讲的无监督是说尽量没有人工标注的，通过自然界或者从自然界物理界采集的信号中，隐含监督是真正学习的方式。比如我们看到两个人一前一后，我们其实可以推测后面这个人长的可能是什么样子，我再举另外一个例子，比如这个人有刘海，或者头发挡住了一半脸，你可能能猜测，或者能估计出这一半脸是什么样子，你看很多人的脸的时候，你知道他可能没挡住是什么样子，挡住没挡住是什么样子，这些并不是人工去标注，或者你看这些东西，这个形成了隐含的监督信号，人就慢慢学会了猜测，大部分可能是什么样子，这个学习能力才能真正我们现在做的监督学习希望做的事情。【提问】：从比较通俗的角度说，在人工智能研究领域，什么样的数据算好的，什么样的数据算质量比较高的？【孙剑】：如果简单讲的话，数据好坏是说，我们数据分两种，分训练数据和测试数据，这两个数据都有各自的分布，测试数据是希望这个数据的分布和真正运行这个系统，遇到这样的情况是完全匹配的，如果你这个匹配程度越高，数据就越多好，这个是我们一个基本的准则，我们希望测试情况是和我们训练数据和测试数据分布一致，这是我们认为数据高不高的一个准则。当然量是另外一个维度，量越大越多好，因为今天的机器学习，尤其深度学习，对数据需求是无止境的，送进去任何数据都有帮助。【提问】：如果基于AlphaGo Zero加入了残差神经网络这样一个整体学习方式，它可不可以自己产出一些好一点的数据？【孙剑】：现在已经在自产生数据，它随机下棋，随机下棋会判断输赢，根据输赢的准则来调整神经网络里的参数，慢慢训练到后面，下棋就不是随机下棋了，所有过程中产生的棋局长，都被它拿去用来受训练了，它是自我博弈与自我产生数据的，拿数据训练神经网络，从这个意义来讲，为什么我们觉得这个工作非常好，它真正是自博弈自产生数据，来解这个特定假设下的特定环境下的一个特定游戏问题。【提问】：对于咱们做计算机视觉算法的，这样一个思维或者路径，上面会不会有一些参考，或者可以鲜明的可能？【孙剑】：目前对我们信息上有很大的鼓舞，但是在实际上怎么把这个思想落地，现在是没有思路的，因为两个问题差别还蛮大的，因为我们人脸识别的大多数问题，都不可以简单地描述成，像下棋这么简单的一件事情，所以目前来说，我们还是要海量的基于有监督学习的，我们自己研究院也做了一些无监督学习的探索，比如目前热点是叫声控式对抗网络，可以把我们生活的一些样本，比如我们戴眼镜和不戴眼镜没有那么多，因为这个方法生成很多看着好像戴眼镜的样本，加入我们监督学习中，我们也在做这样的事情，但是和AlphaGo做的彻底程度还是有差别的，我们现在用这个东西产生数据的方法，恐怕还辅助现在的监督学习，并没有说能够主导监督学习，或者整个学习过程。【提问】：AlphaGo Zero是不是意味着围棋问题算是被计算机解决了，有一个终极的解，是这样吗？【孙剑】：对，我同意。
【提问】：围棋算不算目前在人类桌面棋类里最复杂的，或者说是不是代表了定向规则的所有棋牌类的东西，把围棋解决了代表机器可以把所有棋牌都解决了？【孙剑】：对于围棋是一种信息全开放的棋类，还有一个全解决的定义，因为它其实也没有找到最优解，它找了一个很不错的解，如果你定义最优解应该怎么下，现在还没有。另外我个人发现，现在的棋盘如果扩大成更大，36×36的，这时候会产生什么样的变化，我也是非常感兴趣的，人去下人可能很快能够，比如画成360×360的格子来下，机器今天是不是能够很快地转变过来，这是非常有趣的问题可以探索。
本文来源：网易智能
责任编辑：王超_NT4133
用微信扫码二维码
分享至好友和朋友圈
加载更多新闻
热门产品:　　　
:　　　　　　　　
:　　　　　　　　　
热门影院：
阅读下一篇
用微信扫描二维码
分享至好友和朋友圈}

淘宝游戏网