DeepMind和OpenAI为什么要用深度增强学习玩游戏

9862人阅读
Artificial Intelligence(12)
Deep Reinforcement Learning(14)
Deep Learning(11)
OpenAI是2015年底刚成立的人工智能公司,由Elon Musk领投,号称有10亿美金的投资额,由几位人工智能的顶尖好手组成。这基本上意味着一个新的DeepMind公司诞生,只不过这次OpenAI是一个组织,不属于任何一个公司。
为什么要了解OpenAI?
因为OpenAI的研究内容很大程度上代表着人工智能的研究方向,由于其非盈利性质以及地处加州硅谷这种黄金地段,未来聚集更多顶尖人才的可能性很大,成为一个和DeepMind公司抗衡的可能性非常大。OpenAI的出现将使顶级人工智能的研究不至于被Google(主要是Google,当然还有Microsoft,Facebook,Baidu,IBM,Nvidia等等)垄断。
OpenAI网址:
OpenAI AMA:
OpenAI的很多成员恐怕大家都比较熟悉,有Hinton的学生,有李飞飞的学生,有Pieter Abbeel的学生,也就是Andrew Ng的徒孙了。最近Ian Goodfellow大牛也加入,DeepLearning那本书就是他主笔的。
了解OpenAI最重要的是了解人工智能的研究前沿。
人工智能最前沿的研究方向是什么?
OpenAI提了三点:
- Training Generative Models
- algorithms for inferring algorithms from data
- new approaches to reinforcement learning
那么这三类分别代表什么呢?
Deep Generative Models
第一类面向生成模型,主要任务是生成新的信息,既有有监督学习,也有无监督学习。比如Sequence to Sequence Learning。翻译:输入英文,输出中文。聊天:输入A对话,输出B对话。 输入文字,输出手写字体。还有自动生成文字(如上图,来自),音乐,艺术(Deep dream,Neural Art)。。。 这里面也包含了one shot learning。也就是看一眼图像,就衍生出其变种,如下图:
那么这方面的研究意义在哪呢?我的观点是探索人工智能的感知能力。一方面是不同类型数据的感知,一方面是快速感知与学习。对于不同类型数据的感知。以前只是图像识别,现在开始识别艺术特征,也可以识别文字信息的特征用于翻译对话等等。然后我们发现RNN简直无敌,什么信息都能自动提取。对于同一个seq2seq网络,用在翻译,聊天,理解炉石传说的卡片。。。 RNN可以理解任意形式的内容。另一方面我们希望能够想人类一样快速感知,而不需要巨量的训练数据,也就是看一眼就认得。
Learning Algorithm & Neural Turing Machine
本质上基于RNN计算机可以学习任何东西,那么当然也包括算法和程序了。所以Neural Turing Machine是目的是让计算机能够学习程序,从而具备推理能力。举个栗子:让计算机看很多加法运算,然后学会加法,这大概是最简单的例子。但基本是这个意思。那么Neural Turing Machine需要具备外部记忆,不过RNN,LSTM本身就具备记忆功能。想象一下未来的电脑真的变成一个“脑”:一个巨大的神经网络来实现输入输出。。
上一类研究问题是实现AI更强的感知能力,那么这一类问题就更变态了,直接要实现AI不仅能理解还能推导。当然本质上和第一类问题是一样的。感知也是一种理解。归根到底都是提取某种特征或者说知识信息,并且具备生成能力。依然是用RNN,目前最新的是基于增强学习的NTM。也就是说也通过自学习来增强理解。
这一部分的研究还面向公式的证明,但这次是使用神经网络来证明公式。
其实只要能通过RNN使计算机具备理解能力,那么做什么事都一样。
上面两类问题主要依赖于现有知识,目的是使AI具备牛逼的学习能力。但是要使AI超越人类,就需要自我学习。大家知道AlphaGo能够自我学习,关键就是利用增强学习Reinforcement Learning.
因此,这部分Deep Reinforcement Learning,重点在于使用增强学习实现自学习能力。有很多任务并不是提供很多的样本,特别在机器人控制领域。这类问题严重需要自学习能力。也就是类比为人类的运动能力。大家知道我们要打篮球打得好需要长期的练习,并不是看一眼就会的。因此,Deep Reinforcement Learning,通往AGI的终极武器,要使AI具备自我学习的能力,只要给定一个目标。
人工智能的发展超出了想象,OpenAI的研究方向的进展将使人工智能具备更强的学习能力,也可以说是智能水平!三种类型的研究方向其实都相互依赖,只是各有侧重,都非常酷。而这些东西的本源是RNN。又让人想到了Jurgen Schmidbuber这个神牛了。
在这三个方向中挑一个搞都将很有意义!
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:953471次
积分:8464
积分:8464
排名:第2283名
原创:105篇
评论:271条
文章:18篇
阅读:209977
文章:14篇
阅读:74589
文章:20篇
阅读:321733
(7)(5)(7)(4)(8)(2)(6)(2)(2)(2)(11)(1)(1)(2)(7)(4)(9)(2)(12)(2)(6)(4)(4)(2)市场合作,请您联系:
品牌广告合作,请您联系:
企业创新合作,请您联系:
满足以下场景,获得更高通过率:
新融资求报道
新公司求报道
新产品求报道
创投新闻爆料
为你推送和解读最前沿、最有料的科技创投资讯
聚集15家顶级投资机构的专业互联网融资平台
聚集全球最优秀的创业者,项目融资率接近97%,领跑行业OpenAI联合DeepMind发布全新研究:根据人类反馈进行强化学习
OpenAI联合DeepMind发布全新研究:根据人类反馈进行强化学习
作者:Shane Legg等机器之心编译参与:吴攀、黄小天、李亚洲DeepMind 和 OpenAI 是现在人工智能研究界最重要的两大研究机构,当其联手时,我们能看到什么样的成果诞生呢?近日,一篇题为《Deep reinforcement learning from human preferences》的论文让我们看到这样的努力及其成果——提出了一种基于人类反馈的强化学习方法。该论文在 arXiv 发布后,DeepMind 和 OpenAI 各自通过博客对这项重要成果进行了解读,机器之心在本文中对 DeepMind 的博客及原论文的摘要进行了编译介绍。更多详情请参考以下链接:原论文:https://arxiv.org/abs/DeepMind 博客:/blog/learning-through-human-feedback/OpenAI 博客:/deep-reinforcement-learning-from-human-preferences/DeepMind 推荐的扩展阅读:https://arxiv.org/abs/我们相信人工智能有一天将成为最重要、最裨益人类的科技进步之一,帮助应对人类面临的最艰难的那些挑战,比如全球变暖、普惠医疗。但是在实现这一切之前,我们必须负责任地发明人工智能技术,并考虑到所有潜在的挑战和危险。所以,DeepMind 联合发起了「构建全球人工智能伙伴关系,造福人类与社会」(Partnership on Artificial Intelligence to Benefit People and Society)等倡议,专门组建了一个团队研究技术上的人工智能安全。这一领域的研究需要开放、协作,从而保证最佳的实践得到最广泛地采用。这就是为什么我们与 OpenAI 展开合作,推进人工智能安全的技术性研究。人工智能领域的核心问题之一是人类如何做到告诉一个人工智能系统我们想要它做什么——以及更重要的——我们不想要它做什么。当我们运用机器学习处理的问题变得越发复杂并进入实际应用领域时,这一核心问题的重要性也与日俱增。通过允许没有技术经验的人教授强化学习系统(一个通过试错进行学习的人工智能)一个复杂的目标,我们合作的最初结果给出了一个解决方案。这就不再需要人类特意为了算法的进步去指定一个目标了。这一步很重要,因为在获取目标方面的微小差错也可能导致不想要的、甚至是危险的行为。有时,一个非专家仅仅 30 分钟的反馈就足以训练我们的系统,包括教授系统全新的复杂行为,比如如何使一个模拟机器人做后空翻。通过从被称为「奖励预测器(reward predictor)」神经网络训练智能体,而不是让智能体在探索环境中搜集奖励,这个系统(我们的论文 Deep reinforcement learning from human preferences 描述了它)摈弃了传统的强化学习系统。该系统由三个并行运行的流程组成:一个强化学习智能体探索环境并与之交互,比如 Atari 游戏。一对 1 - 2 秒的行为片段定期地回馈给人类操作员,以供其选择出完成既定目标的最佳智能体。人类的选择被用于训练奖励预测器,预测器进一步训练智能体。智能体不断学习最大化来自预测器的奖励,并根据人类表现提升其行为。这个系统将目标学习从行为学习中分离了出来,以使其能实现该目标。这种迭代式的学习方法意味着人类可以指出并纠正任何非预期的行为,这是所有安全系统的一个关键部分。这个设计也不会给人类操作员增加繁重的负担,他仅需要回顾该智能体 0.1% 的行为,就能让该智能体执行他想让它做的事。但是,这仍然可能意味着需要回顾数百到数千对行为片段(clip);而如果要将其应用到真实世界中,还需要将这一数字继续减小。人类操作员需要在两个行为片段之间做出选择。在这个 Atari Qbert 游戏的例子中,右边的片段表现出了更好的行为(分数更高)。在 Atari 游戏 Enduro 中,玩家需要驾驶汽车赶超其它车。通过传统的强化学习网络的试错技术,智能体很难学会这种行为;而人类反馈最终让我们的系统实现了超越人类的结果。在其它游戏和模拟机器人任务中,它的表现可以和标准的强化学习配置媲美,而在 Qbert 和 Breakout 等几个游戏中,它却完全没有效果。但这种类型的系统的最终目标是让人类可以为智能体指定目标,即使当该智能体不在其需要工作的环境中时。为了对此进行测试,我们教会了智能体多种全新的行为,比如执行一次后空翻、单腿行走或在 Enduro 游戏中与其它车并驾齐驱(而不是赶超对方以最大化得分)。Enduro 游戏的普通目标是尽可能赶超更多的车。但使用我们的系统,我们可以训练智能体追求不同的目标,比如和其它车并驾齐驱。尽快这些测试显示出了积极的结果,但也显示了其缺陷。特别是,如果在训练中很早就停止了人类反馈,我们的设置容易受到 reward hacking 的影响,即在奖励函数上胡乱猜测。在此场景中,智能体继续对环境进行探索,意味着奖励预测器被迫预测没有反馈场景的奖励。这会导致对奖励的过度预测,诱导智能体学习错误的(且往往是陌生的)行为。从以下动图中的例子也可以看到,智能体发现来回反复击球是比得分或失分更好的策略。该智能体修改调整了它们的奖励函数,并决定出来回反复的击球要比得分或丢分更好理解这样的缺陷,对我们避免失败、建立想要的人工智能系统而言很重要。在测试并增强这个系统上,还有许多的工作要做。但在创造由非专业用户教授的系统上,这是非常重要的第一步,节省了用户需要向系统给予反馈的数量,且可扩展到各种各样的问题上。其他领域的探索包括减少所需要的人类反馈,或赋予人类通过自然语言接口给予反馈的能力。这可能标志着创造能从复杂的人类行为进行学习的系统的跃阶性变化,也是迈向创造与人类协作的人工智能重要一步。本研究论文是 DeepMind 的 Jan Leike、Miljan Martic、Shane Legg 以及 OpenAI 的 Paul Christiano、Dario Amodei、 Tom Brown 正在合作开展的一项研究的部分成果,以下是对原论文的摘要介绍:论文:基于人类偏好的深度强化学习(Deep reinforcement learning from human preferences)论文地址:https://arxiv.org/abs/要让复杂的强化学习(RL)系统与真实世界环境进行有用的交互,我们需要与这些系统交流复杂的目标(goal)。在这项工作中,我们探索了根据(非专家)人类在轨迹段对(pairs of trajectory segments)之间的偏好而定义的目标。我们表明这种方法可以在无需访问奖励函数的情况下有效地解决复杂的强化学习任务,包括 Atari 游戏和模拟的机器人运动,同时还能在少于百分之一的我们的智能体与环境的交互上提供反馈。这可以有效地降低人类监管的成本,足以使得其可被实际应用于当前最佳的强化学习系统。为了展示方法的灵活性,我们仅需大约一个小时的人类时间,就可以成功地训练好复杂的全新行为。这些行为和环境被认为比之前任何从人类反馈习得的都更为复杂。
本文仅代表作者观点,不代表百度立场。系作者授权百家号发表,未经许可不得转载。
百家号 最近更新:
简介: 专业的人工智能媒体和产业服务平台
作者最新文章专栏:深度增强学习DRL - CSDN博客
> & & > &深度增强学习DRL
分析讲解当前最前沿的深度增强学习 Deep Reinforcement Learning技术
共18篇博文
1 前言如果大家已经对DQN有所了解,那么大家就会知道,DeepMind测试的40多款游戏中,有那么几款游戏无论怎么训练,结果都是0的游戏,也就是DQN完全无效的游戏,有什么游戏呢?
比如上图这...
1 前言在上一篇blog中,我们分析了蒙特卡洛方法,这个方法的一个特点就是需要运行完整个episode从而获得准确的result。但是往往很多场景下要运行完整个episode是很费时间的,因此,能不能...
1 前言在上一篇文章中,我们介绍了基于Bellman方程而得到的Policy Iteration和Value Iteration两种基本的算法,但是这两种算法实际上很难直接应用,原因在于依然是偏于理想...
前言就目前来看,深度增强学习(Deep Reinforcement Learning)中的很多方法都是基于以前的增强学习算法,将其中的value function价值函数或者Policy functi...
前言今天测试OpenAI Gym,然后发现CartPole的最快实现快到离谱,使用Simulated Annealing,也就是SA模拟退火法。效果如下图:
代码地址:模拟退火解CartPole于是...
前言如果大家关注上个月Nvidia GTC,那么大家应该会注意到Nvidia 老大黄仁勋介绍了他们自家的无人驾驶汽车,这个汽车的无人驾驶技术和以往的方法不一样,完全采用神经网络。这个系统取名为DAVE...
前沿Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力。话说人类创造的机器灵活性还远远低于某些低等生物,比如蜜蜂...
前言OpenAI是2015年底刚成立的人工智能公司,由Elon Musk领投,号称有10亿美金的投资额,由几位人工智能的顶尖好手组成。这基本上意味着一个新的DeepMind公司诞生,只不过这次Open...
深度解读AlphaGo
前言2013年DeepMind 在NIPS上发表Playing Atari with Deep Reinforcement Learning 一文,提出了DQN(Deep Q Network)算法,实...
来源:ICML 2015 Deep Learning Workshop作者:Google DeepMind创新点:构建第一个用于深度增强学习的大规模分布式结构该结构由四部分组成:
并行的行动器:用于产...
来源:ICLR2016作者:Deepmind创新点:将Deep Q-Learning应用到连续动作领域continuous control(比如机器人控制)实验成果:能够鲁棒地解决20个仿真的物理控制...
日,这注定是载入史册的一天。在不被大部分人看好的情况下,AlphaGo第一局就胜了李世石,第二局的胜利更是让很多围棋高手目瞪口呆。接下来的5:0就是时间问题了。AlphaGo的...
来源:Nature 2015作者:Deepmind理解基础:
深度学习基础
增强学习基础
创新点:构建一个全新的Agent,基于Deep Q-network,能够直接从高维的原始输入数据中通过End-...
日,Google Deepmind在Nature上发文宣布其人工智能围棋系统AlphaGo历史性的战胜人类的职业围棋选手!这条重磅新闻无疑引起了围棋界和人工智能界的广泛关注!3月份A...
来源:NIPS 2013作者:DeepMind理解基础:
增强学习基本知识
深度学习 特别是卷积神经网络的基本知识
创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控制策...
## Introduction
深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全...
1 学习资料增强学习课程 David Silver (有视频和ppt):http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html最好的增强学习...
1283185360
1652423620
1452208629
5091825030}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信