如何评价DeepMind和暴雪新开源的暴雪游戏平台星际争霸霸.来自爱可可

点击联系发帖人 时间：2017-11-06 02:33

星际争霸暴雪

DeepMind开源3D学习环境DeepMind Lab
来源：互联网
Google旗下的DeepMind一个基于 id Software Quake III Arena的3D 学习环境，代码托管在GitHub上。DeepMind Lab主要用途是作为AI研究的试验台，AI研究者可以从第一人称视角，从模拟AI的眼睛观察虚拟3D环境。DeepMind Lab提供了一组3D导航和解密任务，让AI学习如何应对不熟悉的环境。
免责声明：本站部分内容、图片、文字、视频等来自于互联网，仅供大家学习与交流。相关内容如涉嫌侵犯您的知识产权或其他合法权益，请向本站发送有效通知，我们会及时处理。反馈邮箱&&&&。
学生服务号
在线咨询，奖学金返现，名师点评，等你来互动&img src=&/50/v2-69faec9c4fb409df09d261c5e2b748b5_b.jpg& data-rawwidth=&489& data-rawheight=&291& class=&origin_image zh-lightbox-thumb& width=&489& data-original=&/50/v2-69faec9c4fb409df09d261c5e2b748b5_r.jpg&&&p&正则表达式，一个十分古老而又强大的文本处理工具，仅仅用一段非常简短的表达式语句，便能够快速实现一个非常复杂的业务逻辑。熟练地掌握正则表达式的话，能够使你的开发效率得到极大的提升。&/p&&p&正则表达式经常被用于字段或任意字符串的校验，如下面这段校验基本日期格式的JavaScript代码：&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&var reg = /^(\\d{1,4})(-|\\/)(\\d{1,2})\\2(\\d{1,2})$/;
var r = fieldValue.match(reg);
if(r==null)alert('Date format error!');
&/code&&/pre&&/div&&p&下面是&b&技匠&/b&整理的，在前端开发中经常使用到的&b&20&/b&个正则表达式。&/p&&p&&b&1 . 校验密码强度&/b&&/p&&p&密码的强度必须是包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
&/code&&/pre&&/div&&p&&b&2. 校验中文&/b&&/p&&p&字符串仅能是中文。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&^[\\u4e00-\\u9fa5]{0,}$
&/code&&/pre&&/div&&p&&b&3. 由数字、26个英文字母或下划线组成的字符串&/b&&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&^\\w+$
&/code&&/pre&&/div&&p&&b&4. 校验E-Mail 地址&/b&&/p&&p&同密码一样，下面是E-mail地址合规性的正则检查语句。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&[\\w!#$%&'*+/=?^_`{|}~-]+(?:\\.[\\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\\w](?:[\\w-]*[\\w])?\\.)+[\\w](?:[\\w-]*[\\w])?
&/code&&/pre&&/div&&p&&b&5. 校验身份证号码&/b&&/p&&p&下面是身份证号码的正则校验。15 或 18位。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&15位：
^[1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}$
^[1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}([0-9]|X)$
&/code&&/pre&&/div&&p&&b&6. 校验日期&/b&&/p&&p&“yyyy-mm-dd“ 格式的日期校验，已考虑平闰年。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&^(?:(?!]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[1])-31)|(?:[0-9]{2}(?:0[48]|[]|[13579][26])|(?:0[48]|[]|[1)-02-29)$
&/code&&/pre&&/div&&p&&b&7. 校验金额&/b&&/p&&p&金额校验，精确到2位小数。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&^[0-9]+(.[0-9]{2})?$
&/code&&/pre&&/div&&p&&b&8. 校验手机号&/b&&/p&&p&下面是国内 13、15、18开头的手机号正则表达式。（可根据目前国内收集号扩展前两位开头号码）&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$
&/code&&/pre&&/div&&p&&b&9. 判断IE的版本&/b&&/p&&p&IE目前还没被完全取代，很多页面还是需要做版本兼容，下面是IE版本检查的表达式。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\/[5-9]\\.0).*$
&/code&&/pre&&/div&&p&&b&10. 校验IP-v4地址&/b&&/p&&p&IP4 正则语句。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b
&/code&&/pre&&/div&&p&&b&11. 校验IP-v6地址&/b&&/p&&p&IP6 正则语句。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))
&/code&&/pre&&/div&&p&&b&12. 检查URL的前缀&/b&&/p&&p&应用开发中很多时候需要区分请求是HTTPS还是HTTP，通过下面的表达式可以取出一个url的前缀然后再逻辑判断。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&if (!s.match(/^[a-zA-Z]+:\\/\\//))
s = 'http://' +
&/code&&/pre&&/div&&p&&b&13. 提取URL链接&/b&&/p&&p&下面的这个表达式可以筛选出一段文本中的URL。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&^(f|ht){1}(tp|tps):\\/\\/([\\w-]+\\.)+[\\w-]+(\\/[\\w- ./?%&=]*)?
&/code&&/pre&&/div&&p&&b&14. 文件路径及扩展名校验&/b&&/p&&p&验证windows下文件路径和扩展名（下面的例子中为.txt文件） &/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&^([a-zA-Z]\\:|\\\\)\\\$[^\\\\]+\\\$*[^\\/:*?&&&|]+\\.txt(l)?$
&/code&&/pre&&/div&&p&&b&15. 提取Color Hex
Codes&/b&&/p&&p&有时需要抽取网页中的颜色代码，可以使用下面的表达式。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&^#([A-Fa-f0-9]{6}|[A-Fa-f0-9]{3})$
&/code&&/pre&&/div&&p&&b&16. 提取网页图片&/b&&/p&&p&假若你想提取网页中所有图片信息，可以利用下面的表达式。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&\\& *[img][^\\\\&]*[src] *= *[\\&\\']{0,1}([^\\&\\'\\ &]*)
&/code&&/pre&&/div&&p&&b&17. 提取页面超链接&/b&&/p&&p&提取html中的超链接。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&(&a\\s*(?!.*\\brel=)[^&]*)(href=&https?:\\/\\/)((?!(?:(?:www\\.)?'.implode('|(?:www\\.)?', $follow_list).'))[^&]+)&((?!.*\\brel=)[^&]*)(?:[^&]*)&
&/code&&/pre&&/div&&p&&b&18. 查找CSS属性&/b&&/p&&p&通过下面的表达式，可以搜索到相匹配的CSS属性。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}
&/code&&/pre&&/div&&p&&b&19. 抽取注释&/b&&/p&&p&如果你需要移除HMTL中的注释，可以使用如下的表达式。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&&!--(.*?)--&
&/code&&/pre&&/div&&p&&b&20. 匹配HTML标签&/b&&/p&&p&通过下面的表达式可以匹配出HTML中的标签属性。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&&\\/?\\w+((\\s+\\w+(\\s*=\\s*(?:&.*?&|'.*?'|[\\^'&&\\s]+))?)+\\s*|\\s*)\\/?&
&/code&&/pre&&/div&&h2&&b&正则表达式的相关语法&/b&&/h2&&p&下面是我找到的一张非常不错的正则表达式 Cheat Sheet，可以用来快速查找相关语法。&/p&&img src=&/v2-2f43be36dd2dd45848e28ddfe430f333_b.jpg& data-rawwidth=&1024& data-rawheight=&768& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&/v2-2f43be36dd2dd45848e28ddfe430f333_r.jpg&&&h2&&b&学习正则表达式&/b&&/h2&&p&我在网上看到了一篇相当不错的正则表达式&a href=&/?target=https%3A///en-us/library/az24scfc%28v%3Dvs.110%29.aspx& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&快速学习指南&i class=&icon-external&&&/i&&/a&，有兴趣继续深入学习的同学可以参考。&/p&&img src=&/v2-99cdd76a777a8a2b3767cbe3566dc45c_b.png& data-rawwidth=&705& data-rawheight=&413& class=&origin_image zh-lightbox-thumb& width=&705& data-original=&/v2-99cdd76a777a8a2b3767cbe3566dc45c_r.png&&&h2&&b&正则表达式在线测试工具&/b&&/h2&&p&&a href=&/?target=https%3A///%23javascript& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&regex101&i class=&icon-external&&&/i&&/a&是一个非常不错的正则表达式在线测试工具，你可以直接在线测试你的正则表达式哦。&/p&&img src=&/v2-0c8bf3fc322f9824b0cbd_b.png& data-rawwidth=&746& data-rawheight=&423& class=&origin_image zh-lightbox-thumb& width=&746& data-original=&/v2-0c8bf3fc322f9824b0cbd_r.png&&&p&另外，我也网上找到几本不错的正则表达式方面的教程和书籍，并将它们分享到了&a href=&/p/& class=&internal&&技匠社&/a&，如果你有兴趣学习欢迎访问获取。^_^&/p&&p&作者：技匠&/p&&p&&a href=&/?target=http%3A///p/e7bb& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/p/e7bb97218&/span&&span class=&invisible&&946&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&——————————————————————————————————————&/p&&p&为了方便大家学习，我建立了一个Python交流群，目前群内已经有1615个小伙伴，学习寂寞的小伙伴不妨一起来玩~群号：&/p&
正则表达式，一个十分古老而又强大的文本处理工具，仅仅用一段非常简短的表达式语句，便能够快速实现一个非常复杂的业务逻辑。熟练地掌握正则表达式的话，能够使你的开发效率得到极大的提升。正则表达式经常被用于字段或任意字符串的校验，如下面这段校验基…
&img src=&/50/v2-b29fcbf48e5e_b.png& data-rawwidth=&1920& data-rawheight=&1080& class=&origin_image zh-lightbox-thumb& width=&1920& data-original=&/50/v2-b29fcbf48e5e_r.png&&&p&选自arXiv&/p&&p&&b&作者：Su Jiawei等人&/b&&/p&&p&&b&机器之心编辑部&/b&&/p&&p&&br&&/p&&blockquote&用于识别图片中物体的神经网络可以被精心设计的对抗样本欺骗，这个问题目前在计算机视觉领域备受关注。此前，生成对抗样本通常需要向原图片中加入一些特定的噪点（参见：经得住考验的「假图片」：用 TensorFlow 为神经网络生成对抗样本）。然而最近，日本九州大学的 Su Jiawei 等人发表的研究证明：修改图片中的一个像素也可以让深度神经网络完全判断错误。&/blockquote&&img src=&/50/v2-ccf596ae4b9af836f2a09_b.jpg& data-caption=&& data-rawwidth=&214& data-rawheight=&214& class=&content_image& width=&214&&&p&在图像识别领域，基于 DNN 的方法突破了传统的图像处理技术，达到了可与人类媲美的结果 [9]。但是，多个研究证明自然图像中的人工扰动可以轻易使 DNN 对图像进行错误分类，研究者提出了生成此类「对抗图像」的高效算法 [1, 2, 3, 4]。生成对抗图像（adversarial images）的主要方式是向准确分类的自然图像中添加精心设计的额外扰动，该扰动不影响人类对图像的识别。这样的修改导致分类器将修改后的图像标注为完全不同的其他物体。但是，大多数之前的攻击并未考虑非常有限的对抗实例，即扰动的量有时候也会影响到人眼的识别能力（示例见图 2）。此外，研究在有限场景中创建的对抗图像更加有趣，因为它们可能更接近原始类别和目标类别（target class）之间的边界，研究此类关键点可以使人类更多地了解 DNN 输入空间的几何特征 [23]。&/p&&img src=&/50/v2-4431aca7aeeda_b.jpg& data-caption=&& data-rawwidth=&557& data-rawheight=&466& class=&origin_image zh-lightbox-thumb& width=&557& data-original=&/50/v2-4431aca7aeeda_r.jpg&&&p&图 1. 使用该研究算法生成的对抗图像成功地在只更改一个像素的情况下误导了目标 DNN。括号内的标签为识别类别，括号外的标签是原类别。修改的像素可能不是很明显，读者需要仔细查看。&/p&&p&&br&&/p&&p&在这篇论文中，通过使用差分进化（differential evolution）扰乱少数像素（1024 个像素中只扰乱 1、3 或 5 个像素）的方式，研究者提出了黑箱 DNN 攻击，研究者将其称为「少量像素攻击」（few-pixels attack），该场景中仅需获取标签的概率信息。研究者提出的方法与之前的研究相比优势在于：&/p&&ul&&li&能够在仅仅修改 1、3 或 5 个像素的情况下发起非靶向攻击，成功率分别为 73.8%、82.0% 和 87.3%，预测目标类别的标签置信概率平均达到了 98.7%。&/li&&li&仅需要黑箱反馈（标签概率），无需目标 DNN 的内部信息，如梯度和网络结构。研究者的方法比较简单，因为它不需要将搜索扰动的问题形式化为任何精确的目标函数，而是直接聚焦于提高目标类别的标签概率值。&/li&&li&能够攻击更多类型的 DNN（如网络不可微或梯度计算比较难的情况）。&/li&&/ul&&p&这篇论文的作者认为少数像素攻击的实现有两大原因。1）实践中，少数像素攻击可以有效隐藏修改。之前的研究无法保证扰动完全不可见。解决这个问题的一个直接方法就是尽量限制扰动的幅度。具体来说，就是不使用理论提出的额外约束或考虑更复杂的扰动成本函数，而是控制修改的像素数量，如在一个 32 X 32 的图像中修改 1、3 和 5 个像素，即使用像素数量而不是扰动向量的长度来衡量扰动的强度。2）从几何的角度来看，多个之前的研究通过限制像素修改来分析自然图像的周围（vicinity）。例如，通用扰动向每个像素添加小的值，使之在自然图像周围的球形区域中搜索对抗图像 [24]。另外，少量像素扰动可以使用维度非常低的子空间来削减输入空间，这也是一种探索 DNN 输入空间特征的不同方法。&/p&&p&根据实验结果，该研究的主要贡献包括：&/p&&ul&&li&使用少数像素扰动能高效地实施非靶向攻击。研究发现仅需要修改 1 个像素，就可将 73.8% 的图像扰动至一个或多个目标类别，在修改 3 个像素和 5 个像素的情况下，比例分别为 82.0% 和 87.3%。这表明不敏感的图像比敏感图像更加稀少，即使扰动已经被限制在这么小的范围内。因为少数像素修改是搜索对抗图像的有效方法，而这种图像在实践中不易被人眼识别。&/li&&li&自然图像可以隐藏的目标类别数量。在 1 个像素扰动的情况下，平均每个自然图像可以被扰动至 2.3 个其他类别。具体来说，18.4%、17.2% 和 16.6% 的图像分别被扰动至 1、2、3 个目标类别。在 5 个像素扰动的情况下，被扰动至 1 到 9 个目标类别的图像数量几乎相同。&/li&&/ul&&img src=&/50/v2-bdd8bec2d72eb77ebbb23e4_b.jpg& data-caption=&& data-rawwidth=&504& data-rawheight=&674& class=&origin_image zh-lightbox-thumb& width=&504& data-original=&/50/v2-bdd8bec2d72eb77ebbb23e4_r.jpg&&&p&图 2. 使用 [1] 生成对抗图像的图示。在所有像素的 4% 以内实施扰动，该扰动可以轻易被人眼识别。由于对抗像素扰动已经成为生成对抗图像的常见方式，因此此类不正常的「噪声」可以被专业人员识别。&/p&&p&&br&&/p&&p&扰动至特定的目标类别的类似扰动方向。通用扰动的高效性证明很多图像可以通过类似方向进行扰动，这样决策边界可能会产生多样性（leak diversity）[24]，而该研究的结果证明同样类别的数据点更易被扰动至具备同样扰动的特定类别（即 1、3 或 5 个像素修改）。&/p&&p&对高维输入空间的数据点分布的几何理解。从几何角度来看，实施少数像素攻击获取的信息可作为仅使用低维子空间切分输入空间所获取的横切面（cross section）上类别标签改变的定量结果。尤其是，研究结果表明一些决策域可能很深入地通向很多不同方向，但是在这些深区域中，决策域反而很窄。也就是说，这些域可能在输入空间的不同方向上有很多狭长的扩展突触。&/p&&p&下文中，对抗图像的原始真正的类别叫作「原类别」（original class），DNN 识别的对抗图像类别为「目标类别」（target class），对抗图像想要欺骗的 DNN 分类器是「目标系统」（target system）。&/p&&img src=&/50/v2-f054db9e2b98a5d8d04d0c93e8ea2e6b_b.jpg& data-caption=&& data-rawwidth=&436& data-rawheight=&355& class=&origin_image zh-lightbox-thumb& width=&436& data-original=&/50/v2-f054db9e2b98a5d8d04d0c93e8ea2e6b_r.jpg&&&p&图 3：在三维输入空间中（即图像有 3 个像素），使用 1 个和 2 个像素扰动攻击的示意图，绿点表示一个自然图片进行扰动。在一个像素进行扰动时，搜索空间为自然图像三条相交线，且每一条线都相互垂直，图中用红线和黑线表示。在 2 个像素的情况下，搜索空间为三个二维相交平面，且每一个平面都相互垂直，图中用蓝色平面表示。总而言之，1 个和 2 个像素攻击搜索了 3 维输入空间中 1 维和 2 维子空间内的扰动。此外，黄圈表示使用 L^p 范数正则化前面定义的搜索空间以控制总体的修正空间。相比之下，少量像素攻击可以搜索更多的区域。&/p&&img src=&/50/v2-056d683ac4ad9c5f5e06fcf_b.jpg& data-caption=&& data-rawwidth=&584& data-rawheight=&797& class=&origin_image zh-lightbox-thumb& width=&584& data-original=&/50/v2-056d683ac4ad9c5f5e06fcf_r.jpg&&&p&图 4：这些条形图统计了分别使用 1、3 和 5 个像素扰动成功扰乱了特定数字（0 到 9）的图像数。竖轴为经过归一化的图像数量，横轴为目标类别的数量。&/p&&p&&br&&/p&&p&&b&论文：One pixel attack for fooling deep neural networks&/b&&/p&&img src=&/50/v2-4ae08c3e602cc82c1d1d_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&134& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/50/v2-4ae08c3e602cc82c1d1d_r.jpg&&&p&论文链接：&a href=&/?target=https%3A//arxiv.org/abs/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&arxiv.org/abs/&/span&&span class=&invisible&&4&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&摘要：最近研究表明，DNN 的输出并不是连续的，它对输入向量上的微小扰动也非常敏感，并且我们已经依据若干种方法对神经网络造成有效扰动。在本论文中，我们基于差分进化（differential evolution）提出了一种极小视觉计算的对抗性扰动（若干个像素的攻击）的全新方法。它所需的对抗性信息很少，可用于更多种类的 DNN 模型。结果表明 73.8% 的测试图像只需修改一个像素就可转化为对抗性图像，且平均置信率达 98.7%。此外，众所周知调查 DNN 的鲁棒性问题可为理解高维度输入空间中的 DNN 决策图的几何特征提供关键线索。相较于先前工作，若干个像素攻击的执行结果有助于从不同角度量化衡量和分析几何理解。 &/p&&p&&br&&/p&&p&&b&本文为机器之心编译，转载请联系本公众号获得授权。&/b&&/p&
选自arXiv作者：Su Jiawei等人机器之心编辑部用于识别图片中物体的神经网络可以被精心设计的对抗样本欺骗，这个问题目前在计算机视觉领域备受关注。此前，生成对抗样本通常需要向原图片中加入一些特定的噪点（参见：经得住考验的「假图片」：用 TensorFlow…
&p&&a href=&///?target=http%3A//web.stanford.edu/class/cs234/index.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CS234: Reinforcement Learning&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=http%3A//rll.berkeley.edu/deeprlcourse/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CS 294 Deep Reinforcement Learning, Fall 2017&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=http%3A//www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&UCL Course on Reinforcement Learning&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=https%3A///dennybritz/reinforcement-learning& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&dennybritz/reinforcement-learning&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=https%3A///blog/deep-reinforcement-learning/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Deep Reinforcement Learning | DeepMind&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=http%3A//icml.cc/2016/tutorials/deep_rl_tutorial.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&icml.cc/2016/tutorials/&/span&&span class=&invisible&&deep_rl_tutorial.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=https%3A//arxiv.org/abs/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&[] A Brief Survey of Deep Reinforcement Learning&i class=&icon-external&&&/i&&/a&&/p&
这有什么难，全部上图。 &br&1日式土豆泥沙拉
&br&&img src=&/4339c8bec761abbaf8f0b_b.jpg& data-rawwidth=&600& data-rawheight=&600& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/4339c8bec761abbaf8f0b_r.jpg&&2日式土豆可乐饼 &br&&img src=&/77b2e72aba4a4ae01100d88_b.jpg& data-rawwidth=&903& data-rawheight=&600& class=&origin_image zh-lightbox-thumb& width=&903& data-original=&/77b2e72aba4a4ae01100d88_r.jpg&&3芝心薯球 &br&&img src=&/1c9e3f05f2fd4dfb81ede4_b.jpg& data-rawwidth=&600& data-rawheight=&601& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/1c9e3f05f2fd4dfb81ede4_r.jpg&&3芝士焗土豆泥 &br&&img src=&/f26d789a069cd154b0afd_b.jpg& data-rawwidth=&500& data-rawheight=&750& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&/f26d789a069cd154b0afd_r.jpg&&4鱼香土豆条 &br&&img src=&/28a71c8ab3d2d12b3702639fcebbf028_b.jpg& data-rawwidth=&454& data-rawheight=&334& class=&origin_image zh-lightbox-thumb& width=&454& data-original=&/28a71c8ab3d2d12b3702639fcebbf028_r.jpg&&5锅包土豆 &br&&img src=&/969cc13bb653c2e0c62cf_b.jpg& data-rawwidth=&826& data-rawheight=&519& class=&origin_image zh-lightbox-thumb& width=&826& data-original=&/969cc13bb653c2e0c62cf_r.jpg&&（图片没找到，拿锅包肉来凑，只要把肉片换成土豆片就好了，口感很好） &br&6肉酱烤土豆 &br&&img src=&/fc7e995a675_b.jpg& data-rawwidth=&1024& data-rawheight=&767& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&/fc7e995a675_r.jpg&&7干锅土豆片 &br&&img src=&/f3fe45d0eef91a6a47c170_b.jpg& data-rawwidth=&633& data-rawheight=&368& class=&origin_image zh-lightbox-thumb& width=&633& data-original=&/f3fe45d0eef91a6a47c170_r.jpg&&8炸薯条（番茄酱、千岛酱、沙拉酱、甜辣酱）&br&&img src=&/c860d4689aca7da5227f86_b.jpg& data-rawwidth=&625& data-rawheight=&462& class=&origin_image zh-lightbox-thumb& width=&625& data-original=&/c860d4689aca7da5227f86_r.jpg&&9糖醋土豆块（或红烧） &br&&img src=&/35aba307aef13_b.jpg& data-rawwidth=&546& data-rawheight=&547& class=&origin_image zh-lightbox-thumb& width=&546& data-original=&/35aba307aef13_r.jpg&&10土豆糕 &br&&img src=&/60730feb9bd63cfbf366e_b.jpg& data-rawwidth=&670& data-rawheight=&503& class=&origin_image zh-lightbox-thumb& width=&670& data-original=&/60730feb9bd63cfbf366e_r.jpg&&11土豆饺子 &br&&img src=&/f4bbe5d43a_b.jpg& data-rawwidth=&960& data-rawheight=&720& class=&origin_image zh-lightbox-thumb& width=&960& data-original=&/f4bbe5d43a_r.jpg&&12土豆火腿蛋糕 &br&&img src=&/42c34afafe64_b.jpg& data-rawwidth=&490& data-rawheight=&396& class=&origin_image zh-lightbox-thumb& width=&490& data-original=&/42c34afafe64_r.jpg&&13松露土豆 &br&&img src=&/d8b9cf69afeda4922846_b.jpg& data-rawwidth=&649& data-rawheight=&386& class=&origin_image zh-lightbox-thumb& width=&649& data-original=&/d8b9cf69afeda4922846_r.jpg&&14橄榄油烤土豆&img src=&/8191faedecf269f22da2f8_b.jpg& data-rawwidth=&750& data-rawheight=&563& class=&origin_image zh-lightbox-thumb& width=&750& data-original=&/8191faedecf269f22da2f8_r.jpg&&15东北炖土豆 &img src=&/bf18fc85b77d5ca382c5_b.jpg& data-rawwidth=&820& data-rawheight=&512& class=&origin_image zh-lightbox-thumb& width=&820& data-original=&/bf18fc85b77d5ca382c5_r.jpg&&16韩式土豆汤（可加辣酱） &br&&img src=&/2dd278cc7be_b.jpg& data-rawwidth=&1024& data-rawheight=&855& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&/2dd278cc7be_r.jpg&&17奶油土豆汤 &br&&img src=&/61bf9edfcbdd238_b.jpg& data-rawwidth=&345& data-rawheight=&270& class=&content_image& width=&345&&18铁板土豆片 &br&&img src=&/3e0564c4_b.jpg& data-rawwidth=&807& data-rawheight=&490& class=&origin_image zh-lightbox-thumb& width=&807& data-original=&/3e0564c4_r.jpg&&19旋风薯塔 &br&&img src=&/6ebecba636d_b.jpg& data-rawwidth=&640& data-rawheight=&466& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/6ebecba636d_r.jpg&&20酸辣土豆丝 &br&&img src=&/ac6c589b766ff321fabcc0d_b.jpg& data-rawwidth=&1024& data-rawheight=&654& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&/ac6c589b766ff321fabcc0d_r.jpg&&21麻辣土豆片 &br&&img src=&/db8570585afcfb37e90ea5_b.jpg& data-rawwidth=&820& data-rawheight=&506& class=&origin_image zh-lightbox-thumb& width=&820& data-original=&/db8570585afcfb37e90ea5_r.jpg&&22酱土豆
&br&&img src=&/6c5fe7c9c2f48e12e782be60ddeb4756_b.jpg& data-rawwidth=&1088& data-rawheight=&816& class=&origin_image zh-lightbox-thumb& width=&1088& data-original=&/6c5fe7c9c2f48e12e782be60ddeb4756_r.jpg&&23土豆酱（豆瓣酱，香其酱，农家大酱） &br&&img src=&/cfecdb31a60b8f8ad9e3da0_b.jpg& data-rawwidth=&590& data-rawheight=&442& class=&origin_image zh-lightbox-thumb& width=&590& data-original=&/cfecdb31a60b8f8ad9e3da0_r.jpg&&24咖喱土豆 &br&&img src=&/eab8c0b033c92eaa704e4e_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/eab8c0b033c92eaa704e4e_r.jpg&&25蒜香黑椒烤土豆 &br&&img src=&/03fabf4e85cebec9d819517_b.jpg& data-rawwidth=&400& data-rawheight=&268& class=&content_image& width=&400&&26干煸香辣土豆 &br&&img src=&/2a1acd57aa920a015b29_b.jpg& data-rawwidth=&449& data-rawheight=&476& class=&origin_image zh-lightbox-thumb& width=&449& data-original=&/2a1acd57aa920a015b29_r.jpg&&27土豆月饼 &br&&img src=&/de76f7a6cd7cff9635e14b_b.jpg& data-rawwidth=&415& data-rawheight=&358& class=&content_image& width=&415&&28黄油蒸土豆 &br&&img src=&/460078faebe12d451bc2e8c010c7b5ad_b.jpg& data-rawwidth=&712& data-rawheight=&499& class=&origin_image zh-lightbox-thumb& width=&712& data-original=&/460078faebe12d451bc2e8c010c7b5ad_r.jpg&&29凉拌土豆丝 &br&&img src=&/cb373bb25464c_b.jpg& data-rawwidth=&600& data-rawheight=&422& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/cb373bb25464c_r.jpg&&30酥炸土豆丝 &br&&img src=&/387efb77a8b05ca1f59b2_b.jpg& data-rawwidth=&615& data-rawheight=&433& class=&origin_image zh-lightbox-thumb& width=&615& data-original=&/387efb77a8b05ca1f59b2_r.jpg&&PS：以上均不是我做的，所以不用夸我很贤惠，我只是爱开脑洞而已。 &br&找图很辛苦，喜欢请点赞，蟹蟹思密达。
这有什么难，全部上图。 1日式土豆泥沙拉 2日式土豆可乐饼 3芝心薯球 3芝士焗土豆泥 4鱼香土豆条 5锅包土豆（图片没找到，拿锅包肉来凑，只要把肉片换成土豆片就好了，口感很好） 6肉酱烤土豆 7干锅土豆片 8炸薯条（番茄酱、千岛酱、沙拉酱、甜辣酱） 9糖…
&p&回顾我站专栏时无意中看到这个问题，应该是缘分。&/p&&img src=&/v2-244dfd122b2c_b.jpg& data-caption=&& data-rawwidth=&4267& data-rawheight=&267& class=&origin_image zh-lightbox-thumb& width=&4267& data-original=&/v2-244dfd122b2c_r.jpg&&&h2&极简增强学习新手教程&/h2&&p&&br&&/p&&p&&b&原文：&/b& &a href=&///?target=https%3A//jizhi.im/blog/post/rl_intro& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Simple Beginner’s guide to Reinforcement Learning & its implementation&i class=&icon-external&&&/i&&/a&&/p&&p&&b&翻译：&/b& &a href=&///?target=https%3A//jizhi.im/user/simplex& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Simplex&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&h2&介绍&/h2&&p&“如何学习新技能？”这是一个全球科学家都在研究的基础问题。为什么会想要知道这个问题的答案呐，答对了好处都有啥呢？&/p&&p&因为一旦我们能够理解这一点，就可以实现一些前人难以想象的事情。比如让机器自己学习来完成许多“人类才能完成的任务”，从而制造出真正的人工智能。&/p&&p&不过目前为止对上述问题大家都还没有一个完整的答案，但有一些事儿我们倒是清楚的。即无论什么样的技能，首先都是通过个体与环境之间的交互来学习的。无论是我们学习开车还是婴儿学习走路，整个过程都是基于与环境的互动来完成的。&/p&&p&因此，倒是可以得出一个结论，即从互动中学习是所有关于学习和智力理论的一个基本思路。&/p&&p&&br&&/p&&h2&增强学习&/h2&&p&今天，我们将研究一下增强学习——一种基于与环境互动的面向目标的学习模式。增强学习据说是人工智能的真正的希望。这么说听起来有些唬人，其实倒也没错，因为增强学习确实拥有巨大的潜力。&/p&&p&增强学习目前正在迅速发展，为不同的应用创造出了各种各样的学习算法。因此，熟悉增强学习的套路很重要。如果你现在对增强学习还没啥概念，建议先阅读这一篇介绍关于增强学习和开源的RL平台的&a href=&///?target=https%3A///blog/2016/12/getting-ready-for-ai-based-gaming-agents-overview-of-open-source-reinforcement-learning-platforms/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&文章&i class=&icon-external&&&/i&&/a&。&/p&&p&一旦你对于增强学习有了一个基本的认识，请继续阅读本文。在本文末尾，你将彻底了解增强学习及其实际应用。&/p&&p&小提示：为了实现增强学习算法，需要有一些Python的基础，可以从本站的其他文章入门。&/p&&p&&br&&/p&&h2&目录&/h2&&p&&br&&/p&&ol&&li&确定一个增强学习问题&/li&&li&与其他机器学习方法的比较&/li&&li&解决增强学习问题的框架&/li&&li&增强学习的一个实现&/li&&li&增加复杂性&/li&&li&窥探最近的增强学习进展&/li&&li&其他资源&/li&&/ol&&img src=&/v2-244dfd122b2c_b.jpg& data-caption=&& data-rawwidth=&4267& data-rawheight=&267& class=&origin_image zh-lightbox-thumb& width=&4267& data-original=&/v2-244dfd122b2c_r.jpg&&&h2&1. 确定一个增强学习问题&/h2&&p&增强学习算法学习动作本身，以及如何将具体状态映射到某种特定动作。最终我们想要达到的结果是使以数字形式表示的奖励信号尽可能地大。而在这一过程中，学习者一开始不知道要采取哪些行动才能达成这个目标，必须要自己发现哪种行动会在未来产生最大的回报。话很绕口，让我来举个简单例子。&/p&&p&&br&&/p&&p&一个孩子学习走路：&/p&&img src=&/v2-7eb4cad6faceef_b.jpg& data-caption=&& data-rawwidth=&1920& data-rawheight=&1280& class=&origin_image zh-lightbox-thumb& width=&1920& data-original=&/v2-7eb4cad6faceef_r.jpg&&&p&&br&&/p&&p&孩子在学习走路时采取的步骤是：&/p&&ul&&li&孩子首先注意你如何走路。发现你用两条腿，一步接一步地走。了解这个概念之后，孩子会试图复制你的行为。&/li&&li&不过没过一会儿，他/她就发现，要想走路，首先得站起来！这是在尝试走路时遇到第一个的挑战，于是孩子得先想办法站起来，虽然晃晃悠悠地还不时会滑倒，孩子最终还是站了起来。&/li&&li&但事情远远没完，还有另一个挑战。站起来很容易，保持稳定则是另一项艰巨的任务！只要功夫深，铁杵磨成针，孩子慢慢学会了找到支点，站住了脚跟。&/li&&li&现在孩子的任务总算变成了开始走路。不过说起来容易做起来难。有太多事情需要时刻记住，比如身体重心的移动，该移动哪一只脚并且选择落点。&/li&&/ul&&p&&br&&/p&&p&所有这一切听起来都像是一个艰巨的任务。事实上从站起来到开始学会走路对于任何孩子都是个挑战，但对于你而言，这件事早就习以为常了，因此你并不会被这个任务所困扰。不过你应该可以理解学会走路对于一个孩子来说还是挺不容易的。&/p&&p&&br&&/p&&p&现在让我们把上面的例子变得正式一点，例子中出现的“问题”就是走路，孩子作为一个&b&主体（agent）&/b&，试图通过采取&b&行动（action）&/b&，在这个例子里是行走，来与&b&环境（environment）&/b&互动（这里指是行走时的路面），他/她试图从一个&b&状态（state）&/b&走到另一个。当他/她完成一个任务的&b&子模块&/b&（比如说走两步）时，孩子得到&b&奖励（reward）&/b&，这里让我们用巧克力来代表，并且当他/她不能走路时不会收到任何巧克力&b&（a.k.a negative reward）&/b&。这样我们就得到了一个增强学习问题的简化描述。&/p&&p&&br&&/p&&img src=&/v2-ebb33cf7afe14b3de48da543ab941630_b.jpg& data-caption=&& data-rawwidth=&434& data-rawheight=&175& class=&origin_image zh-lightbox-thumb& width=&434& data-original=&/v2-ebb33cf7afe14b3de48da543ab941630_r.jpg&&&img src=&/v2-1fac000ef1a5_b.jpg& data-caption=&& data-rawwidth=&434& data-rawheight=&175& class=&origin_image zh-lightbox-thumb& width=&434& data-original=&/v2-1fac000ef1a5_r.jpg&&&img src=&/v2-244dfd122b2c_b.jpg& data-caption=&& data-rawwidth=&4267& data-rawheight=&267& class=&origin_image zh-lightbox-thumb& width=&4267& data-original=&/v2-244dfd122b2c_r.jpg&&&h2&2. 与其他机器学习方法的比较&/h2&&p&增强学习本身从属于一个更大的机器学习算法的分类。下图是关于一个机器学习主要方法的介绍。&/p&&img src=&/v2-a25d0cbf8d9bb_b.jpg& data-caption=&& data-rawwidth=&850& data-rawheight=&540& class=&origin_image zh-lightbox-thumb& width=&850& data-original=&/v2-a25d0cbf8d9bb_r.jpg&&&p&让我们来比较一下增强学习与其他学习：&/p&&p&&br&&/p&&ul&&li&&b&监督学习与增强学习：&/b& 在监督学习中，存在一个“监督者”（supervisor），拥有关于环境的信息，这些知识可以被共享给agent来完成任务。但是在某些问题中，agent为了实现目标，其执行的子任务之间存在太多的组合。此时用一个“监督者”来了解所有的可能情况是不切实际的。例如，在象棋游戏中，可供执行的操作是数以万计的，创建一个知识库来统计所有可以执行的操作是一项繁琐的工作。对于这些问题，更加可行的一种方案是从自身的经验中去不断学习，来获取知识。这一点即是增强学习和监督学习的主要区别。在监督学习和增强学习中，都存在一个输入和输出之间的映射（mapping）。但是在增强学习中，有一个奖励函数（reward function）不断反馈给主体，这点和监督学习很不相同。&/li&&li&&b&非监督学习与增强学习：&/b& 在增强学习中，有一个从输入到输出的映射，而这在无监督学习中是没有的。因为无监督学习的主要任务是找到底层模式而不是映射。比如一个任务是向用户推送个性化的文章，无监督学习算法将会查看与该用户之前已经阅读过的类似的文章，然后从中进行推荐。而增强学习算法将通过推送少量的新闻文章来获得来自用户的不断反馈（喜欢或者不喜欢），在这个过程中不断构建一个“知识图”关于哪种文章用户会喜欢。&/li&&/ul&&p&&br&&/p&&p&还有第四种称为半监督学习的机器学习方法，其本质上是监督和无监督学习的组合。与增强学习不同之处在于监督和半监督学习都有一个类似地直接映射，而增强学习则不具备这一点。&/p&&img src=&/v2-244dfd122b2c_b.jpg& data-caption=&& data-rawwidth=&4267& data-rawheight=&267& class=&origin_image zh-lightbox-thumb& width=&4267& data-original=&/v2-244dfd122b2c_r.jpg&&&h2&3. 解决增强学习问题的框架&/h2&&p&&br&&/p&&p&为了理解如何解决增强学习问题，我们还是通过一个经典的例子来说明-多臂赌博机问题。这个例子可以帮助我们明白 “探索”还是“开发”（exploration vs exploitation）这个基本问题，然后我们再来具体定义解决增强学习的框架。&/p&&p&&br&&/p&&img src=&/v2-9493acfd6e37fa378885_b.jpg& data-caption=&& data-rawwidth=&1123& data-rawheight=&750& class=&origin_image zh-lightbox-thumb& width=&1123& data-original=&/v2-9493acfd6e37fa378885_r.jpg&&&p&&br&&/p&&p&假设你有许多老虎机并且每台的收益都是随机的。&/p&&p&&br&&/p&&img src=&/v2-5fe407d7ae87bbdb13ee03_b.jpg& data-caption=&& data-rawwidth=&320& data-rawheight=&240& class=&content_image& width=&320&&&p&&br&&/p&&p&现在我们想要尽可能快地从老虎机获得最多的奖金。该怎么做呐？&/p&&p&一种naive的方法是只选择一台老虎机，并且一整天都只拉一个老虎机的杠杆。听起来很无聊，但它可能会给你“一些”回报。用这种方法，你可能会遇到大奖（概率接近0.00000 ... .1），但大部分情况下只是坐在老虎机前面丢钱。用术语来说，这是一种&b&“纯开采”方法（pure exploitation approach）&/b&。但这是最佳选择吗？显然不是。&/p&&p&于是就有另一种方法。我们可以拉动每一个老虎机的杠杆，并向上天祈祷，至少中一个大奖。这是另一种天真的做法，让你一整天都拉动杠杆，但给你一个次优的回报。用术语来说，这种方法是一种&b&“纯勘探”方法（pure exploration approach）&/b&。&/p&&p&这两种方法都不是最佳的策略，我们必须从中寻找到一个适当的平衡来获得最大的回报。这叫做增强学习中的&b&开采与勘探困境（exploration vs exploitation dilemma）&/b&。&/p&&p&赌博机问题作为一个经典问题，帮助我们正式确立了增强学习问题的框架，在下面列出了解决问题的可能方法。&/p&&h2&马尔科夫决策过程（Markov Decision Process):&/h2&&p&在增强学习场景中定义解决方案的数学框架被称为马尔可夫决策过程。由以下参数来定义：&/p&&ul&&li&状态集，S&/li&&li&动作集，A&/li&&li&奖励函数，R&/li&&li&策略，ππ&/li&&li&价值，V&/li&&/ul&&p&我们必须采取行动(A)来一步步从我们的起始状态转移到我们的最终状态(S)。作为回报，我们采取的每个行动都会获得奖励(R)。我们的行动可能导致积极抑或消极的回报。&/p&&p&我们采取的一系列行动定义了我们的策略(ππ)，根据策略得到的回报定义了价值(V)。我们的任务则是通过选择正确的策略来最大化我们的奖励。所以我们要做的是对于给定时间t的所有可能状态最大化我们的奖励期望: E(rt|π,st)E(rt|π,st)&/p&&h2&旅行商问题&/h2&&p&再来举一个例子来说明一下。&/p&&img src=&/v2-fae4dbc731dc518a5d09a_b.jpg& data-caption=&& data-rawwidth=&805& data-rawheight=&422& class=&origin_image zh-lightbox-thumb& width=&805& data-original=&/v2-fae4dbc731dc518a5d09a_r.jpg&&&p&图是旅行商问题的一个简单表示。任务是从A到F，且将成本控制得尽可能低。两个位置之间连线旁的数字代表穿过这段距离所需的费用。其中负的成本实际上是一些收益。我们定义价值是执行策略时的总累积奖励。&/p&&p&&br&&/p&&p&于是就有，&/p&&ul&&li&状态集为各个节点{A,B,C,D,E,F}&/li&&li&可选择的动作为从一个点到其他点，比如{A -&B,C -&D,...}&/li&&li&奖励函数为每个边所代表的值，即费用&/li&&li&策略是完成这个任务的路径，比如{A -&C -&F}&/li&&/ul&&p&&br&&/p&&p&现在假定你在位置A，你现在只能看到的路径只有到下一个目的地之间所有可能的路径，其他的信息在这个阶段都无法得知。&/p&&p&你可以采取一种贪婪方法，即永远只选择奖励最好的下一步。这是即是在{A -&（B，C，D，E）}的子集中选择{A -&D}。于是现在你在D，想去F，你可以从{D-&（B，C，F）}中选择。我们看到{D -&F}成本最低，因此我们选择了这条路。&/p&&p&所以在这里，我们的策略是{A -&D -&F}，我们所选择的策略的价值是-120。&/p&&p&恭喜！你刚刚已经实现了一种增强学习算法。这个算法被称为&b&epsilon贪婪算法(epsilon greedy)&/b&，就如同其字面意思，这个方法采取一种贪心的方法来解决问题。现在，如果你（旅行商）想要从A到F，你总是会选择同样的路径。&/p&&h2&换换方法？&/h2&&p&&br&&/p&&p&能猜出来我们的策略属于哪个类别吗（纯勘探与纯开采）？&/p&&p&请注意，我们采取的贪婪算法并不是最优策略。我们必须一点一点的“勘探”出最优的策略。我们在这里采取的方法是基于策略的学习，我们的任务是在所有可能的策略中找到最佳策略。对这个问题有不同的方法来解决，我将简要列出主要类别&/p&&ul&&li&基于策略，关注于找到最优策略&/li&&li&基于价值，关注于找到最优价值&/li&&li&基于动作，关注于找到最优的动作并且在每一步执行它们&/li&&/ul&&p&我将尝试在未来的文章中涵盖深入的增强学习算法。目前，您可以先参考这篇对于&a href=&///?target=https%3A//www.jair.org/media/301/live-301-1562-jair.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&增强学习算法调查&i class=&icon-external&&&/i&&/a&的研究。&/p&&p&&br&&/p&&img src=&/v2-244dfd122b2c_b.jpg& data-caption=&& data-rawwidth=&4267& data-rawheight=&267& class=&origin_image zh-lightbox-thumb& width=&4267& data-original=&/v2-244dfd122b2c_r.jpg&&&h2&4. 增强学习的一个实现&/h2&&p&&br&&/p&&p&我们将使用深度Q学习算法。Q学习算法是一种基于策略的学习算法，用函数逼近器来作为神经网络。这种算法已经被Google使用在Atari游戏中战胜了人类选手！&/p&&p&我们来看看Q-learning的伪代码：&/p&&p&&br&&/p&&ol&&li&初始化价值表'Q(s,a)'.&/li&&li&观察当前状态 's'.&/li&&li&根据策略(比如贪心算法)选择一个动作'a'.&/li&&li&执行这个动作，观察奖励'r'和新状态's'.&/li&&li&使用观察到的奖励和下一个状态可能的最大奖励来更新状态的价值。更新是基于上述公式和参数。&/li&&li&将状态设置为新状态，并重复该过程，直到达到终端状态。&/li&&/ol&&p&&br&&/p&&p&Q学习的简单描述可以归纳如下：&/p&&img src=&/v2-f7b53889e9cbf93c41fd_b.jpg& data-caption=&& data-rawwidth=&507& data-rawheight=&558& class=&origin_image zh-lightbox-thumb& width=&507& data-original=&/v2-f7b53889e9cbf93c41fd_r.jpg&&&p&我们先来看看Cartpole问题，然后用代码来解决这个方案&/p&&p&我记得我小时候，会捡一根木棍，然后试着用一只手来立着平衡它。我和我的朋友曾经比赛看谁能保持更长时间的平衡，获胜者会得到一个“奖励”，一块巧克力。下面让我们放码过来:&/p&&p&不过为了执行我们的代码，必须先安装一些东西。&/p&&p&&b&第一步：安装keras-rl库&/b&&/p&&p&在终端运行如下命令：&/p&&img src=&/v2-915e1b583bb95d59b0001b_b.jpg& data-caption=&& data-rawwidth=&879& data-rawheight=&168& class=&origin_image zh-lightbox-thumb& width=&879& data-original=&/v2-915e1b583bb95d59b0001b_r.jpg&&&p&&b&第二步：安装CartPole环境的依赖包&/b&&/p&&p&我们假定你已经装好了pip，你需要安装下面这些库&/p&&img src=&/v2-ef57aa2dc68ca2b051da8ea449f65318_b.jpg& data-caption=&& data-rawwidth=&885& data-rawheight=&119& class=&origin_image zh-lightbox-thumb& width=&885& data-original=&/v2-ef57aa2dc68ca2b051da8ea449f65318_r.jpg&&&p&&b&第三步：开始&/b&&/p&&p&首先让我们载入相关必要模块&/p&&img src=&/v2-155f397c4_b.jpg& data-caption=&& data-rawwidth=&880& data-rawheight=&376& class=&origin_image zh-lightbox-thumb& width=&880& data-original=&/v2-155f397c4_r.jpg&&&img src=&/v2-4b7c68b0dfbf61fa4c78ad3d3762685b_b.jpg& data-caption=&& data-rawwidth=&876& data-rawheight=&288& class=&origin_image zh-lightbox-thumb& width=&876& data-original=&/v2-4b7c68b0dfbf61fa4c78ad3d3762685b_r.jpg&&&p&然后我们来搭建一个非常简单的含单层隐藏层的神经网络。&/p&&img src=&/v2-e34ebbda0824f57cbb43c318adf456b5_b.jpg& data-caption=&& data-rawwidth=&865& data-rawheight=&285& class=&origin_image zh-lightbox-thumb& width=&865& data-original=&/v2-e34ebbda0824f57cbb43c318adf456b5_r.jpg&&&p&接下来，让我们配置和编译我们的agent。我们将策略设定为Epsilon Greedy，同时我们的内存设置为顺序内存，因为我们想要存储执行动作的结果以及每个动作获得的回报。&/p&&img src=&/v2-e07a44bafe245a2f023f_b.jpg& data-caption=&& data-rawwidth=&878& data-rawheight=&279& class=&origin_image zh-lightbox-thumb& width=&878& data-original=&/v2-e07a44bafe245a2f023f_r.jpg&&&p&现在可以测试下我们的增强学习模型：&/p&&img src=&/v2-debffde2922_b.jpg& data-caption=&& data-rawwidth=&881& data-rawheight=&83& class=&origin_image zh-lightbox-thumb& width=&881& data-original=&/v2-debffde2922_r.jpg&&&p&我们的模型会有如下输出：&/p&&img src=&/v2-ea623c106fc4ce1285eec_b.jpg& data-caption=&& data-rawwidth=&428& data-rawheight=&286& class=&origin_image zh-lightbox-thumb& width=&428& data-original=&/v2-ea623c106fc4ce1285eec_r.jpg&&&p&万事大吉，你刚刚造出了一个增强学习机器人！&/p&&img src=&/v2-244dfd122b2c_b.jpg& data-caption=&& data-rawwidth=&4267& data-rawheight=&267& class=&origin_image zh-lightbox-thumb& width=&4267& data-original=&/v2-244dfd122b2c_r.jpg&&&h2&4. 增加一点复杂度&/h2&&p&既然我们已经完成了一个增强学习的基本实现，那么让我们开始多涉及一些别的问题，一点一点增加复杂度。&/p&&p&&br&&/p&&h2&汉诺塔问题&/h2&&img src=&/v2-b51da495d2ebf0eb8e11_b.jpg& data-caption=&& data-rawwidth=&499& data-rawheight=&181& class=&origin_image zh-lightbox-thumb& width=&499& data-original=&/v2-b51da495d2ebf0eb8e11_r.jpg&&&p&它是在1883年发明的，由3根杆组成，包括从最左边的杆开始的多个顺序大小的盘。目的是将所有的盘从最左边的杆移动到最右边的杆，移动次数最少。更多的信息可以在&a href=&///?target=https%3A//en.wikipedia.org/wiki/Tower_of_Hanoi& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&wikipedia&i class=&icon-external&&&/i&&/a&上看到。&/p&&p&如果我们要映射这个问题，必须从一些状态开始：&/p&&p&&br&&/p&&ul&&li&&b&开始状态&/b& 三张盘子按顺序排列在最左边的杆上&/li&&li&&b&结束状态&/b& 三张盘子按顺序排列在最右边的杆上&/li&&/ul&&p&&br&&/p&&p&&b&所有可能状态：&/b&&/p&&p&下面是27种可能状态：&/p&&img src=&/v2-37b964b56f3cbb41e41c_b.jpg& data-caption=&& data-rawwidth=&887& data-rawheight=&288& class=&origin_image zh-lightbox-thumb& width=&887& data-original=&/v2-37b964b56f3cbb41e41c_r.jpg&&&p&(12)3*代表1号盘和2号盘在最左边的杆上，3号盘在中间的杆上，最右边的杆上没有盘子&/p&&p&&br&&/p&&p&&b&数值奖励：&/b&&/p&&p&我们希望能在最短的移动步数里解决问题，所以我们可以将奖励设为每一步为 -1&/p&&p&&br&&/p&&p&&b&策略：&/b&&/p&&p&现在，不讨论任何技术细节，我们可以映射出上述状态之间的可能转换。例如状态（123）** -&（23）1 *伴随奖励为-1。同时也可以转换为状态（23）* 1&/p&&p&我们现在可以看到一个并行的，上述27个状态中的每一个都可以代表一个与之前旅行商问题类似的图形，我们可以通过实验各种状态和路径找到最优解。&/p&&p&&br&&/p&&h2&3x3 魔方问题&/h2&&p&对于这个问题，我希望你可以自己思考。按照上面的思路，应该是没问题的。&/p&&p&首先定义开始状态和结束状态。接下来，定义所有可能的状态及其转换以及奖励和策略。最后，你应该能够使用相同的方法创建一个解决更多维魔方的解决方案。&/p&&img src=&/v2-244dfd122b2c_b.jpg& data-caption=&& data-rawwidth=&4267& data-rawheight=&267& class=&origin_image zh-lightbox-thumb& width=&4267& data-original=&/v2-244dfd122b2c_r.jpg&&&h2&6. 窥探最近的增强学习进展&/h2&&p&&br&&/p&&p&你可能意识到，这个魔方问题的复杂性比汉诺塔问题高很多倍。你还可以了解到当数量增加时选择的数量也会剧增。现在，想想国际象棋的数量和选择，然后是围棋。Google DeepMind最近创建了一个深入的增强学习算法，击败了Lee Sedol！&/p&&p&随着深度学习最近的成功，现在关注重点正在慢慢转向应用深度学习来解决增强学习问题。Google DeepMindz正在开发这方面的深层增强学习算法，尽管Lee Sedol被打败的新闻让这个消息显得不那么引人注目，类似的突破也出现了游戏中，其中研究的算法可以达到以至超过人类能达到的准确度。研究仍然是平等的，工业界和学者共同努力，以实现建立更好的自学机器人的目标。&/p&&p&增强学习应用的一些主要领域如下：&/p&&p&&br&&/p&&ul&&li&游戏理论与多主体交互&/li&&li&机器人&/li&&li&电脑网络&/li&&li&车载导航&/li&&li&医学&/li&&li&工业物流&/li&&/ul&&p&&br&&/p&&p&还有有很多事情没有探索，将目前的深度学习热潮适用于增强学习，肯定会迎来更大的突破！&/p&&img src=&/v2-244dfd122b2c_b.jpg& data-caption=&& data-rawwidth=&4267& data-rawheight=&267& class=&origin_image zh-lightbox-thumb& width=&4267& data-original=&/v2-244dfd122b2c_r.jpg&&&h2&7. 其他资源&/h2&&p&&br&&/p&&p&我希望现在你对增强学习的工作有了一个较为深入的了解。这里还有一些额外的资源可以帮助您更多地了解增强学习。&/p&&ul&&li&&a href=&///?target=https%3A///blog/-deep-learning-videos-tutorials-courses-on-youtube-from-2016/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Videos on Reinforcement Learning&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&///?target=https%3A//webdocs.cs.ualberta.ca/%7Esutton/book/bookdraft2016sep.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Book on Introduction to Reinforcement Learning&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&///?target=https%3A///aikorea/awesome-rl& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Awesome Reinforcement Learning Github repo&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&///?target=https%3A///playlist%3Flist%3DPLV_1KI9mrSpGFoaxoL9BCZeen_s987Yxb& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Course on Reinforcement Learning by David Silver&i class=&icon-external&&&/i&&/a&&/li&&/ul&&p&&br&&/p&&p&&br&&/p&&p&&b&拓展阅读：&/b&&/p&&p&&br&&/p&&p&&a href=&///?target=https%3A//jizhi.im/blog/post/dqn& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深度增强学习DQN&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=https%3A//jizhi.im/blog/post/ailearntowalk& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&我家的AI才不会这么智障——DeepMind让人工智能学会如何走路&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=https%3A//jizhi.im/blog/post/machine-learning-types-01& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器学习算法分类一览[上]&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&官方微博：@景略集智&/p&&p&微信公众号：jizhi-im&/p&&p&集智QQ群：&/p&&p&商务合作：chenyang@jizhi.im&/p&&p&投稿转载：kexiyang@jizhi.im&/p&&img src=&/v2-efbbde0fef67ea51c94cafa7_b.jpg& data-caption=&& data-rawwidth=&1024& data-rawheight=&831& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&/v2-efbbde0fef67ea51c94cafa7_r.jpg&&
回顾我站专栏时无意中看到这个问题，应该是缘分。极简增强学习新手教程原文：翻译：
介绍“如何学习新技能？”这是一个全球科学家都在研究的基础问题。为什么会想要知道…
&img src=&/50/v2-da36f1df7af_b.jpg& data-rawwidth=&744& data-rawheight=&432& class=&origin_image zh-lightbox-thumb& width=&744& data-original=&/50/v2-da36f1df7af_r.jpg&&&p&本文是 &a href=&/?target=https%3A///u/hadoopdev& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&张子良 &i class=&icon-external&&&/i&&/a&的逐&a href=&/?target=https%3A///course/224& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&梦AI，聆听百度人工智能决胜未来之道&i class=&icon-external&&&/i&&/a& 课程课件，未经允许，禁止转载。&/p&&p&&b&推荐课程：&/b& &/p&&p&&a href=&/?target=https%3A///course/224& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&10月17日逐梦AI，聆听百度人工智能决胜未来之道&i class=&icon-external&&&/i&&/a& &/p&&p&&b&分享内容：
&/b& &/p&&p&1.什么是人工智能？&/p&&p&2.人工智能的技术架构&/p&&p&3.人工智能发展的阶段&/p&&p&4.人工智能发展路上的瓶颈&/p&&p&5.人工智能决胜未来的关键要素。&/p&&p&&br&&/p&&p&&br&&/p&&img src=&/v2-9bd1e411f9dd9a0fec0d_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-9bd1e411f9dd9a0fec0d_r.jpg&&&img src=&/v2-764f4c6af8ed_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-764f4c6af8ed_r.jpg&&&img src=&/v2-5dcdbcc1ce4_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-5dcdbcc1ce4_r.jpg&&&img src=&/v2-b7f68f01a1d3cd081fc08c9de2f0db1c_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-b7f68f01a1d3cd081fc08c9de2f0db1c_r.jpg&&&img src=&/v2-aa24dcc182b4edb040cb1ed_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-aa24dcc182b4edb040cb1ed_r.jpg&&&img src=&/v2-4fed40baddf3_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-4fed40baddf3_r.jpg&&&img src=&/v2-62f686bf12525cadfebaaa_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-62f686bf12525cadfebaaa_r.jpg&&&img src=&/v2-1ae73616e_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-1ae73616e_r.jpg&&&img src=&/v2-99c722e6fa8ecd2970fe2cfeb97126c3_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-99c722e6fa8ecd2970fe2cfeb97126c3_r.jpg&&&img src=&/v2-92c294a70ccda6d85e2a043_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-92c294a70ccda6d85e2a043_r.jpg&&&img src=&/v2-1c0ad05cdbd26a2d1cfb_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-1c0ad05cdbd26a2d1cfb_r.jpg&&&img src=&/v2-00a5ee1a_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-00a5ee1a_r.jpg&&&img src=&/v2-858f959daba763cb284f66c30d32d56f_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-858f959daba763cb284f66c30d32d56f_r.jpg&&&img src=&/v2-2f85e15fa1d6dc799fcc24_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-2f85e15fa1d6dc799fcc24_r.jpg&&&img src=&/v2-2e4da177adad_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-2e4da177adad_r.jpg&&&img src=&/v2-d8c8f27b9388bceadbe347cdb2bee543_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-d8c8f27b9388bceadbe347cdb2bee543_r.jpg&&&img src=&/v2-c4e46b0a63a0f0e419e3bbc_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-c4e46b0a63a0f0e419e3bbc_r.jpg&&&img src=&/v2-f5dffa13bcee4bb83bed72b_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-f5dffa13bcee4bb83bed72b_r.jpg&&&img src=&/v2-cd446da6ca5b07d327294_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-cd446da6ca5b07d327294_r.jpg&&&img src=&/v2-36f4770afb5dc5d31dbe724e49ea15b9_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-36f4770afb5dc5d31dbe724e49ea15b9_r.jpg&&&img src=&/v2-d9c2e795cac46ed294e91ad69a3aad1e_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-d9c2e795cac46ed294e91ad69a3aad1e_r.jpg&&&img src=&/v2-0bed8efb754a9e97b9273cc0_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-0bed8efb754a9e97b9273cc0_r.jpg&&&img src=&/v2-f393f1b714b0fe6884dfd_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-f393f1b714b0fe6884dfd_r.jpg&&&img src=&/v2-295ed6e0fbfb91_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-295ed6e0fbfb91_r.jpg&&&img src=&/v2-cd7f793e0d6f98d9bd5721_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-cd7f793e0d6f98d9bd5721_r.jpg&&&img src=&/v2-57b09c4c1a735d_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-57b09c4c1a735d_r.jpg&&&img src=&/v2-ca250625bed44611a2fbfca84b00ec8d_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-ca250625bed44611a2fbfca84b00ec8d_r.jpg&&&img src=&/v2-c8bb151d139b62ba68ae82b2_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-c8bb151d139b62ba68ae82b2_r.jpg&&&img src=&/v2-5ef9cab18b665d17bffe_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-5ef9cab18b665d17bffe_r.jpg&&&img src=&/v2-a1eaef753172cfff037d0a1a1c870a2f_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-a1eaef753172cfff037d0a1a1c870a2f_r.jpg&&&img src=&/v2-223abf4acf0e_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-223abf4acf0e_r.jpg&&&img src=&/v2-e582d63bbc6a9e644a9701_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-e582d63bbc6a9e644a9701_r.jpg&&&img src=&/v2-bb997ec521cab69ea9fd80a2073cb14c_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-bb997ec521cab69ea9fd80a2073cb14c_r.jpg&&&img src=&/v2-6bf_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-6bf_r.jpg&&&img src=&/v2-804db28cafeb7bdef14dc14_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-804db28cafeb7bdef14dc14_r.jpg&&&img src=&/v2-d8c0bb1b9d6bf7b4b0dd61a7e7bcdf3d_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-d8c0bb1b9d6bf7b4b0dd61a7e7bcdf3d_r.jpg&&&img src=&/v2-775b4c6e4d15562b8bfd073c3c311475_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-775b4c6e4d15562b8bfd073c3c311475_r.jpg&&&img src=&/v2-9cd8eea110d34a099d405fcab6d908cc_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-9cd8eea110d34a099d405fcab6d908cc_r.jpg&&&img src=&/v2-455cb79e5ed4dfbcf8997_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-455cb79e5ed4dfbcf8997_r.jpg&&&img src=&/v2-de009fff546d412c816d0f4ecc3bbc68_b.jpg& data-caption=&& data-rawwidth=&4000& data-rawheight=&2250& class=&origin_image zh-lightbox-thumb& width=&4000& data-original=&/v2-de009fff546d412c816d0f4ecc3bbc68_r.jpg&&&p&&/p&
本文是的逐课程课件，未经允许，禁止转载。推荐课程：
分享内容：
1.什么是人工智能？2.人工智能的技术架构3.人工智能发展的阶段4.人工智能发展路上的瓶颈5.…
&img src=&/50/v2-78b9507feab_b.jpg& data-rawwidth=&600& data-rawheight=&282& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/50/v2-78b9507feab_r.jpg&&&blockquote&问耕发自凹非寺&br&量子位出品 | 公众号 QbitAI&/blockquote&&p&第八届星际争霸AI大赛（StarCraft AI Competition）终于落下帷幕。&/p&&p&这次大赛选用的版本是《星际争霸：母巢之战》，开启战争迷雾。所有参赛的AI在16台虚拟机上，1v1捉对厮杀，为期两周共进行41580场大战。按照最终的胜率排定座次。&/p&&p&每局比赛60分钟，未分高下时得分多者胜出。作弊或者计算超时都会被判出局。&/p&&p&&br&&/p&&img src=&/v2-f0fc1cf49c852d3d0a63b8ebf7fdf5b0_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&360& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-f0fc1cf49c852d3d0a63b8ebf7fdf5b0_r.jpg&&&p&&br&&/p&&p&共有28支队伍参赛，其中有15支属于独立战队（Independent），其他基本来自大学：&/p&&p&美国哈佛大学、荷兰代尔夫特理工大学、瑞典皇家理工学院、荷兰马斯特里赫特大学、巴西米纳斯联邦大学、日本筑波大学、加拿大纽芬兰纪念大学、法国南特大学、法国高等信息工程师学院、日本立命馆大学、韩国世宗大学。&/p&&p&&br&&/p&&img src=&/v2-eb7ab1d917174_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&348& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-eb7ab1d917174_r.jpg&&&p&&br&&/p&&p&还有三个队伍是量子位格外关注的。&/p&&p&比方说中国团队。&/p&&p&其中以独立战队身份参赛的“CPAC”，背后是一个Junge Zhang领衔的13人研发团队，来自中科院自动化研究所；这个星际AI基于Steamhammer bot，然后增加了一些新的策略，并通过机器学习的方式训练了一个多层感知网络来生产战斗部队。&/p&&p&（Steamhammer bot 传送门：&a href=&/?target=http%3A//satirist.org/ai/starcraft/steamhammer/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&satirist.org/ai/starcra&/span&&span class=&invisible&&ft/steamhammer/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&）&/p&&p&还有一个中国团队由Tang Zhentao领衔，代号“KillAll”，据推测应该是来自中科院自动化研究所复杂系统管理与控制国家重点实验室；不过相关信息实在是太少。&/p&&p&另一个值得关注的队伍是“CherryPi”（樱桃派），背后是来自Facebook人工智能研究实验室的八人团队。&/p&&p&&br&&/p&&img src=&/v2-afcb7c8b59c49ad47a9c5d_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&399& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-afcb7c8b59c49ad47a9c5d_r.jpg&&&p&&br&&/p&&p&最终的战果：不隶属于任何机构的独立战队们，包揽前三名。&/p&&p&CPAC以71%的胜率排名第四；CherryPi以69.08%的胜率排名第六；KillAll以43%的胜率排名第18。第一名“ZZZKBot”胜率83.11%，平均用时8分钟。&/p&&p&这几位AI用的都是虫族。&/p&&p&&br&&/p&&img src=&/v2-fab722048fafed61b13fe83c4c290928_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&232& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-fab722048fafed61b13fe83c4c290928_r.jpg&&&p&&br&&/p&&p&Facebook的团队，在这个大赛中显得有些异类，毕竟这是唯一有企业背景的选手，而且是一个押注AI已久的科技巨头。&/p&&p&科技巨头的AI杀入星际争霸并不稀奇。今年8月，Google旗下的DeepMind宣布进军星际，不过他们选择的方向是《星际争霸2》。&/p&&p&看起来，星际争霸已经成为巨头争霸的下一个战场。&/p&&p&Facebook的人工智能团队至少已有80余人，带领这个团队的是大名鼎鼎的Yann LeCun，他们已经发表了很多研究和论文（其中三篇与星际争霸有关）。但目前Facebook在人工智能领域还没有取得AlphaGo那样的成就。&/p&&p&而这次参赛成绩也表明，Facebook还有很长的一段路要走。&/p&&p&&br&&/p&&img src=&/v2-859a8a2f7da_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&328& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-859a8a2f7da_r.jpg&&&p&&br&&/p&&p&Facebook研究科学家Gabriel Synnaeve表示，他们把CherryPi当做一个基线，以及未来继续在星际领域进行研究的基础，“我们想看看它与现有bot相较如何，特别是测试一下是否有需要纠正的缺陷”。&/p&&p&人工智能对于科技公司的重要性已经不言而喻，而星际对于AI研究的重要性和挑战，不仅仅是指挥战斗这么简单。与下围棋这件事相比，《星际争霸》的复杂性要大得多也要困难得多。&/p&&p&即便DeepMind现在也没有突破性的进展。（参见量子位之前的报道）&/p&&blockquote&星际2是个实用的基础AI研究环境，因为游戏本身复杂多变，且胜利方式不固定。&br&玩家想要取胜需要同时做多手准备，比如管理并创造资源、指挥军事单位和部署防御结构等操作需要同时进行，逐步完成。此外，玩家还需预测对手的策略。&br&这项任务确实不容易，但不是无解。DeepMind和暴雪尝试将游戏分为多个“迷你游戏”，将不同任务分解成“可管理的组块”，比如建立特定单元、收集资源或在地图上移动等。&br&细分是为了方便研究人员进行不同任务的测试比较及细化，最终在智能体中组合，从而教会智能体通关整个游戏。&/blockquote&&p&为啥这个大赛没用星际2？好像是没跟暴雪爸爸谈好……&/p&&p&&br&&/p&&img src=&/v2-bb355ab294e590eaf26c0_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&360& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-bb355ab294e590eaf26c0_r.jpg&&&p&&br&&/p&&p&回到这次的星际争霸AI大赛，独立参赛的队伍，通常bot背后是程序员制定的规则和策略。比如摘得冠军的ZZZKBot，背后是澳大利亚的程序员Chris Coxe。他独自创建了这个AI，但其中只有一些简单的学习功能，背后更多是各种预先编辑好的策略。&/p&&p&而对于科技巨头来说，他们更多的依靠机器学习，通过积累大量的游戏数据，让AI自己制定相应的游戏策略。不过据说这次Facebook也没有把全部研究都注入CherryPi之中。尽管如此，CherryPi还是获得了对手的肯定，获得第二名的PurpleWave作者就表示，CherryPi对时机的把握让他印象深刻。&/p&&p&那么获胜的队伍都依靠了什么策略和技术？量子位也简单介绍一下。&/p&&p&&b&第一名：ZZZKBot&/b&&/p&&p&虫族，单基地Rush布局：4-Pool，Speedling，Hydra，Muta。使用手工编码的逻辑，来进行策略选择。&/p&&p&这个bot其实只能执行一种单基地Rush战术，单它的对手现在比较吃这一套。另外，这个bot能在游戏中学习一些策略，以判断哪种rush是最有效的。以及，这个bot几乎没有掌握任何战斗中的微操作。&/p&&p&“这原本只是想证明一个概念”，作者Chris Coxe自我评价：“源代码并不是那么好”。&/p&&p&&b&第二名：PurpleWave&/b&&/p&&p&这个bot主要是用Scala写出来的，作者是美国软件工程师Dan Gant，他今年一月开始启动这个项目。&/p&&p&PurpleWave看起来比第一名更为“AI”一点；会微操作，有多种不同的策略。PurpleWave的高级决策被构建为一个任务网络，它能根据对手以往的比赛情况，选择不同的对抗策略。&/p&&p&&b&第三名：Iron&/b&&/p&&p&这是去年的冠军，作者是法国程序员Igor Dimitrijevic。Iron于2016年开始研发，前身是2015年参赛的Stone。&/p&&p&Iron是一个多智能体系统，每个智能体控制一个单位。整体行为的鲁棒性是其主要目标，每个智能体都是高度自主的，可以在25种行为之间切换。每场对决，Iron都采用相同的开局，但对根据对手的情况进行反应和修改策略。&/p&&p&&b&第四名：CPAC&/b&&/p&&p&团队名单：Junge Zhang，Xun Zhang，Qiyue Yin，Dong Zhan，Shihong Deng，Huikai Wu，Peixi Peng，Wenzhen Huang，Jing Kong，Debang Li，Yange Fang，Tairan Zhang，Junliang Xing。&/p&&p&CPAC是首次参赛，整个研发耗时数月。其他情况开头也介绍过了。&/p&&p&&br&&/p&&img src=&/v2-9c1a39c68d1fb316adf1a601_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&142& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-9c1a39c68d1fb316adf1a601_r.jpg&&&p&&br&&/p&&p&最后说一下这个大赛的情况。&/p&&p&星际争霸AI大赛，是加拿大纽芬兰纪念大学David Churchill组织的年度活动。这个比赛的目的是促进和评估即时战略游戏（RTS）对人工智能的意义。&/p&&p&整个比赛使用BWAPI，这是一种可以让AI程序控制《星际争霸：母巢之战》的软件库。&/p&&p&另外还有一些基本数据分享一下。比如历届选手的种族分布，2017堪称虫族大崛起：&/p&&p&&br&&/p&&img src=&/v2-e5a137dbf2ac1d61d3d186_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&325& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-e5a137dbf2ac1d61d3d186_r.jpg&&&p&&br&&/p&&p&如果你想参与这个竞赛，大会官方还提供了一个开源项目：UAlbertaBot，包含完整的文档。不过这只是一个入门指导，如果你想基于这个开源代码参赛，必须对其进行重大修改。主办方也不想一个bot的多个副本展开竞争。&/p&&p&这个开源项目的地址在此：&a href=&/?target=https%3A///davechurchill/ualbertabot/wiki& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/davechurchil&/span&&span class=&invisible&&l/ualbertabot/wiki&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&期待未来看到大家制霸全场~&/p&&p&另外，如果你想获得历年数据，以及各种bot的相关下载，可以在量子位微信公众号（QbitAI）对话界面，回复“&b&星际bot&/b&”即可获得。&/p&&p&— &b&完&/b& —&/p&&p&欢迎大家关注我们的专栏：&a href=&/qbitai& class=&internal&&量子位 - 知乎专栏&/a&&/p&&p&诚挚招聘&/p&&p&量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。&/p&&p&&a href=&/qbitai& class=&internal&&量子位 QbitAI&/a&&/p&
问耕发自凹非寺量子位出品 | 公众号 QbitAI第八届星际争霸AI大赛（StarCraft AI Competition）终于落下帷幕。这次大赛选用的版本是《星际争霸：母巢之战》，开启战争迷雾。所有参赛的AI在16台虚拟机上，1v1捉对厮杀，为期两周共进行41580场大战。按照最…
&p&先来一张各大车企自动驾驶技术的分级图，大致了解一下目前已经量产的自动驾驶技术哪家强。&/p&&img src=&/v2-eebde977acad8568229fda0bf2692142_b.jpg& data-caption=&& data-rawwidth=&1551& data-rawheight=&1567& class=&origin_image zh-lightbox-thumb& width=&1551& data-original=&/v2-eebde977acad8568229fda0bf2692142_r.jpg&&&blockquote&奔驰：这儿有点挤啊...&br&沃尔沃：隔壁那位兄弟，你踩着我脚了...&br&特斯拉：唉，无敌是多么寂寞&br&奥迪：Tesla，你对力量一无所知&/blockquote&&p&&br&&/p&&p&自动驾驶从L2到L5是一个相对漫长的过程，现已发布的量产车型中有处于L3的奥迪A8、处于L2.5的Tesla、还有处于L2的凯迪拉克CT6等。&/p&&p&&br&&/p&&p&那么每一级别之间具体的区别和需要克服的难点到底又有哪些？那就一级一级细细道来。&/p&&p&&br&&/p&&p&按照国际惯例，谈论自动驾驶级别时必须上一张SAE的分级图。&/p&&img src=&/v2-ce7ead78c73ddc_b.jpg& data-caption=&& data-rawwidth=&1099& data-rawheight=&748& class=&origin_image zh-lightbox-thumb& width=&1099& data-original=&/v2-ce7ead78c73ddc_r.jpg&&&p&图片出处：&a href=&///?target=https%3A//www.sae.org/misc/pdfs/automated_driving.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&LEVELS OF DRIVING AUTOMATION ARE DEFINED IN NEW SAE INTERNATIONAL STANDARD J3016&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&下面我用给大家解释一下&/p&&ul&&li&各个级别到底代表着什么样的技术&/li&&li&哪些&b&指标&/b&能立刻区分汽车属于哪个Level&/li&&li&为什么Level越高，对技术的要求越高&/li&&/ul&&p&&br&&/p&&p&&br&&/p&&h2&&b&SAE Level 0：&/b&&/h2&&h2&&b&No Automation（无自动化）&/b&&/h2&&p&准确来说，现在我们已经很难看到 Level 0 的汽车了。要么早已报废，要么法规都禁止其上路了。&b&无自动化&/b&意味着诸如ABS（自动防抱死）这种现在看来最基本的配置都没有。极端一点，你可以认为Level 0的车就是四个轮子加一个沙发。@吉利&/p&&p&&br&&/p&&p&&br&&/p&&h2&&b&SAE Level 1：&/b&&/h2&&h2&&b&Driver Assistance（驾驶员辅助）&/b&&/h2&&p&生活中常见的车基本都属于Level 1。Level 1 称为驾驶员辅助系统，所有在驾驶员行驶过程中，对行车状态有干预的功能都叫驾驶员辅助，都属于Level 1。&/p&&p&比如最基本的ABS，以及在ABS基础上升级而来的ESP，还有高速路段常用的定速巡航、ACC自适应巡航功能及LKA车道保持辅助。&/p&&p&大家买车时，在底盘功能介绍中看到的各种英文缩写，或多或少都是属于SAE 规定的Level 1。&/p&&p&&br&&/p&&p&&br&&/p&&h2&&b&SAE Level 2：&/b&&/h2&&h2&&b&Partial Automation（部分自动化）&/b&&/h2&&p&Level 2和Level 1最明显的区别是系统能否&b&同时&/b&在车辆横向和纵向上进行控制。&/p&&p&如果一个车辆能同时做到ACC+LKA（自适应巡航+车道保持辅助），那么这辆车就跨进了Level 2的门槛。2018款的凯迪拉克CT6拥有的半自动驾驶系统“Super Cruise”就是典型的Level 2级别。&/p&&p&先来看个视频：&a href=&///?target=http%3A///v_show/id_XMjkyNDY2Njk3Ng%3D%3D.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&凯迪拉克CT6，SuperCruise自动驾驶系统演示&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&视频中可以看到，该车并不具备主动超车的功能。即目前的Super Cruise仅能实现单一车道内的加减速。&/p&&p&&br&&/p&&p&再来说说自动驾驶话题下不得不提的特斯拉。正如我在&&a href=&/question//answer/& class=&internal&&互联网公司和汽车企业都在开发自动驾驶，你更看好谁？&/a&&中提到的那样，特斯拉过度夸大了他们系统所具备的能力。&/p}

淘宝游戏网