李飞飞中国贡献最大的领导人贡献是imagenet么

点击联系发帖人 时间：2016-06-19 08:14

抗战贡献最大的省份

热门推荐：
　　大数据文摘
　　来源：腾讯视频、新智元
　　前言：当一个非常小的孩子看到图片时，她可以辨认出里面简单的要素：&猫&&书&&椅子&。现在，电脑也聪明得可以做同样的工作了。接下来呢？在这个令人震撼的演讲里，计算机视觉专家李飞飞介绍了这一技术的发展现状――包括她的团队为了&教&计算机理解图片所建立的一千五百万照片的数据库――而关键性的要点还不止于此。
　　视频内容翻译：
　　我先来给你们看点东西。
　　（视频）女孩：好吧，这是只猫，坐在床上。一个男孩摸着一头大象。那些人正准备登机。那是架大飞机。
　　李飞飞：这是一个三岁的小孩在讲述她从一系列照片里看到的东西。对这个世界，她也许还有很多要学的东西，但在一个重要的任务上，她已经是专家了：去理解她所看到的东西。我们的社会已经在科技上取得了前所未有的进步。我们把人送上月球，我们制造出可以与我们对话的手机，或者订制一个音乐电台，播放的全是我们喜欢的音乐。然而，哪怕是我们最先进的机器和电脑也会在这个问题上犯难。所以今天我在这里，向大家做个进度汇报：关于我们在计算机视觉方面最新的研究进展。这是计算机科学领域最前沿的、具有革命性潜力的科技。
　　是的，我们现在已经有了具备自动驾驶功能的原型车，但是如果没有敏锐的视觉，它们就不能真正区分出地上摆着的是一个压扁的纸袋，可以被轻易压过，还是一块相同体积的石头，应该避开。我们已经造出了超高清的相机，但我们仍然无法把这些画面传递给盲人。我们的无人机可以飞跃广阔的土地，却没有足够的视觉技术去帮我们追踪热带雨林的变化。安全摄像头到处都是，但当有孩子在泳池里溺水时它们无法向我们报警。照片和视频，已经成为全人类生活里不可缺少的部分。它们以极快的速度被创造出来，以至于没有任何人，或者团体，能够完全浏览这些内容，而你我正参与其中的这场TED，也为之添砖加瓦。直到现在，我们最先进的软件也依然为之犯难：该怎么理解和处理这些数量庞大的内容？所以换句话说，在作为集体的这个社会里，我们依然非常茫然，因为我们最智能的机器依然有视觉上的缺陷。
　　“为什么这么困难？”你也许会问。照相机可以像这样获得照片：它把采集到的光线转换成二维数字矩阵来存储――也就是“像素”，但这些仍然是死板的数字。它们自身并不携带任何意义。就像听到“和”“听”完全不同，“拍照”和“看”也完全不同。通过“看”，我们实际上是“理解”了这个画面。事实上，大自然经过了5亿4千万年的努力才完成了这个工作，而这努力中更多的部分是用在进化我们的大脑内用于视觉处理的器官，而不是眼睛本身。所以“视觉”从眼睛采集信息开始，但大脑才是它真正呈现意义的地方。
　　所以15年来，从我进入加州理工学院攻读Ph.D.到后来领导斯坦福大学的视觉实验室，我一直在和我的导师、合作者和学生们一起教计算机如何去“看”。我们的研究领域叫做&计算机视觉与机器学习&。这是AI（人工智能）领域的一个分支。最终，我们希望能教会机器像我们一样看见事物：识别物品、辨别不同的人、推断物体的立体形状、理解事物的关联、人的情绪、动作和意图。像你我一样，只凝视一个画面一眼就能理清整个故事中的人物、地点、事件。
　　实现这一目标的第一步是教计算机看到“对象”（物品），这是建造视觉世界的基石。在这个最简单的任务里，想象一下这个教学过程：给计算机看一些特定物品的训练图片，比如说猫，并让它从这些训练图片中，学习建立出一个模型来。这有多难呢？不管怎么说，一只猫只是一些形状和颜色拼凑起来的图案罢了，比如这个就是我们最初设计的抽象模型。我们用数学的语言，告诉计算机这种算法：“猫”有着圆脸、胖身子、两个尖尖的耳朵，还有一条长尾巴，这（算法）看上去挺好的。但如果遇到这样的猫呢？（笑）它整个蜷缩起来了。现在你不得不加入一些别的形状和视角来描述这个物品模型。但如果猫是藏起来的呢？再看看这些傻猫呢？你现在知道了吧。即使那些事物简单到只是一只家养的宠物，都可以呈现出无限种变化的外观模型，而这还只是“一个”对象的模型。
　　所以大概在8年前，一个非常简单、有冲击力的观察改变了我的想法。没有人教过婴儿怎么“看”，尤其是在他们还很小的时候。他们是从真实世界的经验和例子中学到这个的。如果你把孩子的眼睛都看作是生物照相机，那他们每200毫秒就拍一张照。――这是眼球转动一次的平均时间。所以到3岁大的时候，一个孩子已经看过了上亿张的真实世界照片。这种“训练照片”的数量是非常大的。所以，与其孤立地关注于算法的优化、再优化，我的关注点放在了给算法提供像那样的训练数据――那些，婴儿们从经验中获得的质量和数量都极其惊人的训练照片。
　　一旦我们知道了这个，我们就明白自己需要收集的数据集，必须比我们曾有过的任何数据库都丰富――可能要丰富数千倍。因此，通过与普林斯顿大学的Kai Li教授合作，我们在2007年发起了ImageNet（图片网络）计划。幸运的是，我们不必在自己脑子里装上一台照相机，然后等它拍很多年。我们运用了互联网，这个由人类创造的最大的图片宝库。我们下载了接近10亿张图片并利用众包技术（利用互联网分配工作、发现创意或解决技术问题），像“亚马逊土耳其机器人”这样的平台来帮我们标记这些图片。在高峰期时，ImageNet是「亚马逊土耳其机器人」这个平台上最大的雇主之一：来自世界上167个国家的接近5万个工作者，在一起工作帮我们筛选、排序、标记了接近10亿张备选照片。这就是我们为这个计划投入的精力，去捕捉，一个婴儿可能在他早期发育阶段获取的”一小部分“图像。
　　事后我们再来看，这个利用大数据来训练计算机算法的思路，也许现在看起来很普通，但回到2007年时，它就不那么寻常了。我们在这段旅程上孤独地前行了很久。一些很友善的同事建议我做一些更有用的事来获得终身教职，而且我们也不断地为项目的研究经费发愁。有一次，我甚至对我的研究生学生开玩笑说：我要重新回去开我的干洗店来赚钱资助ImageNet了。――毕竟，我的大学时光就是靠这个资助的。
　　所以我们仍然在继续着。在2009年，ImageNet项目诞生了――一个含有1500万张照片的数据库，涵盖了22000种物品。这些物品是根据日常英语单词进行分类组织的。无论是在质量上还是数量上，这都是一个规模空前的数据库。举个例子，在“猫”这个对象中，我们有超过62000只猫长相各异，姿势五花八门，而且涵盖了各种品种的家猫和野猫。我们对ImageNet收集到的图片感到异常兴奋，而且我们希望整个研究界能从中受益，所以以一种和TED一样的方式，我们公开了整个数据库，免费提供给全世界的研究团体。（掌声）
　　那么现在，我们有了用来培育计算机大脑的数据库，我们可以回到“算法”本身上来了。因为ImageNet的横空出世，它提供的信息财富完美地适用于一些特定类别的机器学习算法，称作“卷积神经网络”，最早由Kunihiko Fukushima，Geoff Hinton，和Yann LeCun在上世纪七八十年代开创。就像大脑是由上十亿的紧密联结的神经元组成，神经网络里最基础的运算单元也是一个“神经元式”的节点。每个节点从其它节点处获取输入信息，然后把自己的输出信息再交给另外的节点。此外，这些成千上万、甚至上百万的节点都被按等级分布于不同层次，就像大脑一样。在一个我们用来训练“对象识别模型”的典型神经网络里，有着2400万个节点，1亿4千万个参数，和150亿个联结。这是一个庞大的模型。借助ImageNet提供的巨大规模数据支持，通过大量最先进的CPU和GPU，来训练这些堆积如山的模型，“卷积神经网络”以难以想象的方式蓬勃发展起来。它成为了一个成功体系，在对象识别领域，产生了激动人心的新成果。这张图，是计算机在告诉我们：照片里有一只猫、还有猫所在的位置。当然不止有猫了，所以这是计算机算法在告诉我们照片里有一个男孩，和一个泰迪熊；一只狗，一个人，和背景里的小风筝；或者是一张拍摄于闹市的照片比如人、滑板、栏杆、灯柱…等等。有时候，如果计算机不是很确定它看到的是什么，我们还教它用足够聪明的方式给出一个“安全”的答案，而不是“言多必失――就像人类面对这类问题时一样。但在其他时候，我们的计算机算法厉害到可以告诉我们关于对象的更确切的信息，比如汽车的品牌、型号、年份。
　　我们在上百万张谷歌街景照片中应用了这一算法，那些照片涵盖了上百个美国城市。我们从中发现一些有趣的事：首先，它证实了我们的一些常识――汽车的价格，与家庭收入呈现出明显的正相关。但令人惊奇的是，汽车价格与犯罪率也呈现出明显的正相关性，以上结论是基于城市、或投票的邮编区域进行分析的结果。
　　那么等一下，这就是全部成果了吗？计算机是不是已经达到，或者甚至超过了人类的能力？――还没有那么快。目前为止，我们还只是教会了计算机去看对象。这就像是一个小宝宝学会说出几个名词。这是一项难以置信的成就，但这还只是第一步。很快，我们就会到达发展历程的另一个里程碑：这个小孩会开始用“句子”进行交流。所以不止是说这张图里有只“猫”，你在开头已经听到小妹妹告诉我们“这只猫是坐在床上的”。
　　为了教计算机看懂图片并生成句子，“大数据”和“机器学习算法”的结合需要更进一步。现在，计算机需要从图片和人类创造的自然语言句子中同时进行学习。就像我们的大脑，把视觉现象和语言融合在一起，我们开发了一个模型，可以把一部分视觉信息，像视觉片段，与语句中的文字、短语联系起来。
　　大约4个月前，我们最终把所有技术结合在了一起，创造了第一个“计算机视觉模型”，它在看到图片的第一时间，就有能力生成类似人类语言的句子。现在，我准备给你们看看计算机看到图片时会说些什么――还是那些在演讲开头给小女孩看的图片。
　　（视频）计算机：“一个男人站在一头大象旁边。”“一架大飞机停在机场跑道一端。”
　　李飞飞：当然，我们还在努力改善我们的算法，它还有很多要学的东西。（掌声）
　　计算机还是会犯很多错误的。
　　（视频）计算机：“一只猫躺在床上的毯子上。”
　　李飞飞：所以…当然――如果它看过太多种的猫，它就会觉得什么东西都长得像猫……
　　（视频）计算机：“一个小男孩拿着一根棒球棍。”（笑声）
　　李飞飞：或者…如果它从没见过牙刷，它就分不清牙刷和棒球棍的区别。
　　（视频）计算机：“建筑旁的街道上有一个男人骑马经过。”（笑声）
　　李飞飞：我们还没教它Art101（美国大学艺术基础课）。
　　（视频）计算机：“一只斑马站在一片草原上。”
　　李飞飞：它还没学会像你我一样欣赏大自然里的绝美景色。
　　所以，这是一条漫长的道路。将一个孩子从出生培养到3岁是很辛苦的。而真正的挑战是从3岁到13岁的过程中，而且远远不止于此。让我再给你们看看这张关于小男孩和蛋糕的图。目前为止，我们已经教会计算机“看”对象，或者甚至基于图片，告诉我们一个简单的故事。
　　（视频）计算机：“一个人坐在放蛋糕的桌子旁。”
　　李飞飞：但图片里还有更多信息――远不止一个人和一个蛋糕。计算机无法理解的是：这是一个特殊的意大利蛋糕，它只在复活节限时供应。而这个男孩穿着的是他最喜欢的T恤衫，那是他父亲去悉尼旅行时带给他的礼物。另外，你和我都能清楚地看出，这个小孩有多高兴，以及这一刻在想什么。
　　这是我的儿子Leo。在我探索视觉智能的道路上，我不断地想到Leo和他未来将要生活的那个世界。当机器可以“看到”的时候，医生和护士会获得一双额外的、不知疲倦的眼睛，帮他们诊断病情、照顾病人。汽车可以在道路上行驶得更智能、更安全。机器人，而不只是人类，会帮我们救助灾区被困和受伤的人员。我们会发现新的物种、更好的材料，还可以在机器的帮助下探索从未见到过的前沿地带。
　　一点一点地，我们正在赋予机器以视力。首先，我们教它们去“看”。然后，它们反过来也帮助我们，让我们看得更清楚。这是第一次，人类的眼睛不再独自地思考和探索我们的世界。我们将不止是“使用”机器的智力，我们还要以一种从未想象过的方式，与它们“合作”。
　　我所追求的是：赋予计算机视觉智能，并为Leo和这个世界，创造出更美好的未来。
　　谢谢。
　　（掌声）
　　【限时干货下载】
　　2015年11月干货文件打包下载，请点击大数据文摘底部菜单：下载等--11月下载
　　大数据文摘精彩文章：
　　回复【金融】看【金融与商业】专栏历史期刊文章
　　回复【可视化】感受技术与艺术的完美结合
　　回复【安全】关于泄密、黑客、攻防的新鲜案例
　　回复【算法】既涨知识又有趣的人和事
　　回复【谷歌】看其在大数据领域的举措
　　回复【院士】看众多院士如何讲大数据
　　回复【隐私】看看在大数据时代还有多少隐私
　　回复【医疗】查看医疗领域文章6篇
　　回复【征信】大数据征信专题四篇
　　回复【大国】 “大数据国家档案”之美国等12国
　　回复【体育】大数据在网球、NBA等应用案例
　　回复【志愿者】了解如何加入大数据文摘
　　专注大数据，每日有分享
　　覆盖千万读者的WeMedia联盟成员之一
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
普及数据思维，传播数据文化；专注大数据，每日有分享。
知名IT评论人，曾就职于多家知名IT企业，现是科幻星系创建人
未来在这里发声。
新媒体的实践者、研究者和批判者。
立足终端领域，静观科技变化。深入思考，简单陈述。
智能硬件领域第一自媒体。& 有关于"" 的文章列表
【0915】让计算机看懂世界：世界顶级专家探讨图像识别的发展和未来
?来自：机器学习研究会本文为机器学习研究会沙龙实录经作者授权转载沙龙主题：让计算机看懂世界时间：日嘉宾：贾扬清（谷歌大脑资深科学家，全球最普遍使用的图像识别开源软件 caffe 的作者）徐伟（百度深度学习实验室杰出科学家）赵勇（格灵深瞳创始人，前谷歌研究院资深科学家，谷歌眼镜核心成员）主持人：雷鸣（北大大数据与机器学习创新中心主任；百度七剑客，酷我创始人）摘要：当前计算机视觉和图像处理技术的发展现状，未来5年的发展和挑战。图像处理将来在安防领域、身份识别、智能硬件、机器人、以及医疗、农业、教育、军事等各个行业的可能突破，商业化机会等。环节一：沙龙对话主持人雷鸣：各位，我们今天非常有幸请到了贾扬清，徐伟，赵勇三位人工智能专家，让我们欢迎他们的到来！下面开始今天的沟通话题。计算机视觉和图像识别的现状雷鸣：首先，请三位嘉宾聊一下当前计算机视觉和图像识别的现状，现在到底到了什么水平？赵勇：图像识别在过去几年发展太迅速了。五年前我博士毕业刚刚加入谷歌研究院的时候，我所在的组很多同事都在研究这个问题。回忆当时，可能不会有任何人可以想象到之后这几年这个领域有这么巨大的进展。如果盲目地看看ImageNet、ILSVRC上跑的分数，甚至给人这么一种感觉：计算机图像识别的能力是不是已经超越人类了？赵勇：当然这些重要的进展，最大的贡献，来自于深度神经网络技术的发展，大数据的发展，以及大规模高性能运算的发展。贾扬清-谷歌-research：对，计算机视觉在物体识别上的进展前几年突飞猛进，现在几乎可以说已经超越人类在特定的任务上的识别能力了，比如说人脸识别，具体物种的识别等等。徐伟-百度IDL-杰出科学家：我认为在一些特定的任务上，是超过人类了。比如人脸识别。雷鸣：特定任务，也就是说当我们聚焦在一类问题，并匹配相应的算法和数据训练，可以接近，并不是广泛的超越，也就是说在开放的数据上，和人类还是有很大差距的，对吧？贾扬清-谷歌-research ：对的，比如说Washington University最近开放的MegaFace项目，就有这样的结果。一些在Labeled Face in the Wild上比较好的算法在更大的MegaFace数据集上就可能出现瓶颈。说明在更开放的数据集上，我们还有很多进展可以期待。赵勇：我不会把超越人作为一个合理的目标。毕竟人拥有很多非常特殊的能力，在有些地方人的能力远远超过机器；在其他方面其实机器早就超过人了。譬如人脸识别今天的进展允许计算机在一个很大的数据库里识别人，这件事情人可能就做不到。因为毕竟大多数人的记忆能力有限，在他的生活中最多需要识别几百人。但是对于熟悉的人，人的识别能力是极其精确的。即使在很差的光线条件，很远的距离，甚至带上口罩和墨镜，有时候人都有很好的识别能力。俗话说：对于特别熟悉的对象，人眼可以做到“烧成灰我都认识你”。徐伟-百度IDL-杰出科学家：另外说和人比，需要说明是和普通人还是和专家比。不少任务也已经超过普通人。比如动物识别，花卉识别。雷鸣：@赵勇，也就是说，我们人类在进行熟悉的人的识别时，其实不仅仅应用的图片信息。赵勇：我的意思就是徐伟的意思。对于识别自己熟悉的人，每个人都是专家。今天计算机仍然比不上人类的专家。徐伟-百度IDL-杰出科学家：不过对特定人的识别，目前也还缺乏这样的数据。人是有了大量的数据才会做的很好的。不过计算机比不上，一种可能是没有这么多的数据去做这样的研究。贾扬清-谷歌-research ：我对视觉领域的进展还是挺乐观的，比如说今年的ImageNet Challenge准备不再包含object classification，但是要增加object detection和video detection的比重，也说明研究界对于新的问题的兴趣。赵勇：首先，对于识别熟悉的人，人类掌握巨大规模的数据，例如识别自己的亲人。另外，人生活在一个时间和空间连续的世界中，我们的识别不是发生在一张照片里。这里面的机理可能非常复杂。今天的深度学习还没有到这种程度。雷鸣：各位感觉，以现在的发展速度，在开放数据上，在未来5年会有突破吗？徐伟-百度IDL-杰出科学家：过去几年的进步有不少是因为有了合适的数据带来的，比如ImageNet, LFW。如果有人提供了这样的数据，可能相应的结果很快就会出来。因为计算能力现在已经有了。贾扬清-谷歌-research ：如徐伟所说，数据可能会是将来研究这些算法的一大需求。视频流数据、3维深度信息对识别的帮助雷鸣：现在我们很多识别都集中在图片上，对于视频流数据，以及3维的深度信息，对识别的帮助大吗？将来这些信息对于提升识别质量，是否会有非常大的帮助？赵勇：动作识别这个领域，三维信息的作用就非常大。提到动作识别，大家可能印象最深的还是Kinect技术。这是一种依赖深度传感器的识别技术。毕竟，之于动作本身，最重要的核心信息是形状、结构，而不是色彩和纹理等传统两维彩色相机。因此这个结果也是非常合理的。但是，无论是Kinect还是OpenNI，本质上仍然解决的是人机交互过程中使用的动作识别问题。在这些应用中，识别的对象（交互者）往往站在相机的正面，用一种配合的姿态被识别。所以大多数时候不存在多个物体之间的相互遮挡，人体各个肢体之间的相互着当也不严重，而且人体的形态比较简单（不会附带其他物体，比如背包、雨伞、箱子等身体之外的物体）。基本上这些场景都属于比较可控的场景。贾扬清-谷歌-research ：很有帮助。去年techcrunch上有一个有趣的demo叫IsItYou - 使用三维信息和时间维度可以得到比单纯图片更丰富的信息。徐伟-百度IDL-杰出科学家：我觉得，对于视频图像的学习，现在计算能力还有些欠缺。赵勇：当时在完全不可控的场景中（例如安防监控），首先要同时应付更多的人，这些人之间可能有严重的相互遮挡，而且由于这些人都没有主动配合识别，和相机的视角方向有可能是正面、侧面、背面、甚至是下面。加上实际情况中的复杂性，比如人们可能携带着各种无法预测的物体，人与人之间可能非常接近以至于纠缠在一起。在这种不可控的情况下，动作识别的挑战还是很大的。赵勇：事实上，格灵深瞳在过去两年基于ＲＧＢＤ相机，研发了一款用在安防监控领域里的视觉系统。在动作识别方面我们遭遇了严重的挑战。在面对这些挑战的过程中，深度神经网络技术，针对人体结构的先验知识，更好的volumetric tracking技术帮了大忙。尽管如此，实时动作识别这个feature仍然面临着运算成本高等现实问题。当然，也有很多学者通过大量样本的深度学习，在传统色彩相机捕捉的数据上试图识别肢体动作。这些研究也产生了一些有趣的结果。但是和基于深度信号的方法相比，这类技术的现状是只能比较好的处理简单的姿态。在对结果要求比较高的实时系统中，目前看来还是基于深度图像的方法比较靠谱。贾扬清-谷歌-research ：现在视频学习很多还是一些大公司在做，关键是因为数据和运算能力都还没有达到commoditize的程度。赵勇：我希望高性能运算技术能够获得更大的突破，尤其是低成本低功耗的异构运算技术，能够使得我们能够更加有效地、低成本地在实时环境中使用深度神经网络技术。目前的深度学习技术严重依赖ＧＰＵ平台。虽然在训练模型阶段，这样的成本是可以接受的。但是在大规模应用深度学习，特别是在移动设备、机器人等实时应用中，使用ＧＰＵ来进行模型测试并不是最理想的方式。为了迎接这些挑战，我们需要更强大，更高效的半导体运算架构。雷鸣：图像识别对于公共安全，企业安全和家庭安全，都有什么可能的作用和贡献呢？赵勇：我希望传感器方面能够有重要的突破。在彩色传感器方面，我希望敏感性以及动态范围能够有大的改善。在深度传感器方面，我希望尺寸更小、工作距离更远、功耗更低的传感器能够被推上市场，这方面大家可以关注solid state lidar这项技术。个人认为这项技术对于机器人领域有很大的影响力。应用：安防、汽车、身份识别雷鸣：看来随着计算能力的提升，我们可以期待在视频信息处理上的巨大发展！下面我们谈谈对于具体的应用领域吧，首先我们接着赵勇提到的，就是安防领域。徐伟-百度IDL-杰出科学家：安防还是很有空间的。我家装了一个视频监视器，什么风吹草动都会触发。赵勇：其实计算机视觉在今天的安防领域里的存在感是很小的。市场上绝大多数安防产品，仍然停留在网络录像机阶段。贾扬清-谷歌-research ：我了解的在美国这边有很多传统的做家庭安防的公司，用的技术都很古老，所以效果也不很好，要不就是“风吹草动”就会有误报，要不就是在真实时间中很难触发。Dropcam、Nest等等在这方面做了一些尝试，但是目前还没有真正的产品问世，但是我觉得这会是一个很大的市场。赵勇：要大规模在安防领域里推广计算机视觉，首先需要把数据平台和运算平台结合起来。今天的安防系统大多数达不到这样的条件。雷鸣：现状不是太理想，如果有需求，恰恰说明未来有希望，各位畅想一下未来5年，这方面有哪些机会呢？徐伟-百度IDL-杰出科学家：实时监控需要大量计算能力还是一个瓶颈。赵勇：格灵深瞳在过去两年一直研发安防系统使用的计算机视觉。我们使用了深度信号，使得问题简单一些。但是即使如此，在一个小小的摄像头里运行检测、跟踪、识别，甚至是深度学习识别，对于运算系统的挑战还是很大的。贾扬清-谷歌-research ：我觉得将来的安防系统应该会配备智能的摄像头，在本地就可以实现视频的理解，物体的识别以及跟踪等等技术，这样就不会需要长时间和服务器的通讯，并且避免服务器端被大量计算请求淹没的问题，专用的芯片可能会在这个领域很有帮助。雷鸣：@徐伟，这个能够通过一些专用的计算机视觉芯片解决吗？直接安装在本地？徐伟-百度IDL-杰出科学家：目前的算法如果不计成本，应该可以做的不错了。算低成本功耗的计算能力很重要。贾扬清-谷歌-research ：比如说NVidia的Tegra和Movidius的Myriad2就在致力于解决本地计算能力的压力，但是目前的确还在初步尝试的阶段，在成本以及功耗速度比上面还有空间。赵勇：在安防领域，有些公司正在走云计算的方案，就是把所有的图像数据都上传到云上，然后利用云的计算能力来分析。但是这样作的成本很高。所以我还是把希望寄托在高性能的嵌入式系统上。徐伟-百度IDL-杰出科学家：我同意赵勇的观点，都在云端计算代价太高。雷鸣：你们觉得考虑现在软硬件的综合发展，在未来5年，安防这个领域，计算机视觉这块会有巨大的机会吗？会有成熟可以接受的解决方案并大范围被使用吗？赵勇：这点我还是乐观的。至少在有些特殊领域，计算机视觉已经可以解决实际问题了。比如银行安防（室内小场景），道路安防（汽车是比较容易处理的目标）。家庭安防的困难，就在与对成本要求很严格，几乎不可能承受高成本的计算机视觉运算。而且家庭安防需要应付的情况更加复杂，难以预料。我更看好需求明确的政府和企业应用。雷鸣：说到汽车相关，我发现很多停车场已经不发卡了，直接拍照识别车牌。贾扬清-谷歌-research ：对的，还有一个应用是baby monitor ，这方面大家往往会愿意投入不小的成本。贾扬清-谷歌-research ：parking是另外一个巨大的市场，比如说如何提供停车场内部的车流引导，如何动态计算停车场当中空余车位的分布，等等。比如说，大城市的机场停车场非常迫切地需要这样的技术。赵勇：是啊，车牌识别已经非常成熟了。但是目前套牌车很多，所以我们又开发了车行车款识别软件能够在几千车型车款和年份中精确识别目标。在结合联网的大数据，我估计以后套拍车就没有生存空间了。雷鸣：下面我们在聊聊身份识别这一块儿，你们觉得会大范围使用吗？贾扬清-谷歌-research ：身份识别上我特别想提一下google做的Project Abacus，这个项目我一直在参与，前一段时间公开了，想法是通过检测和识别用户使用Android设备的各种行为和生物信息（点了什么app，说了什么话，人脸是不是匹配用户）来实现无密码的身份识别。人工智能在这方面是非常核心的技术。贾扬清-谷歌-research ：这个项目我知道有很多咱们国内的同行在合作开发，比如说CUHK的汤老师组。更加智能的身份识别，特别是隐式的身份识别，可以非常明显地提高单纯基于密码的系统的安全程度。赵勇：总体来说，安防领域的挑战还是很大的。虽然面前市场上的产品基本上都是录像机，但是用户对于计算机视觉产品的期待还是非常高。如果不能解决实际问题，产生大量误报，用户宁可不使用。比如人脸识别技术，在安防系统中的使用量是很低的。雷鸣：当前如果在照片相对理想的情况下，人脸识别的错误率时多少？人脸识别和其他生物特征识别相比，孰优孰劣，比如指纹，虹膜，声音等。徐伟-百度IDL-杰出科学家：人脸需要和传统的刷卡来用，确保刷卡人正确。贾扬清-谷歌-research：我个人的感觉是人脸目前作为一个单独的方法还是不够的，我们在LFW上可以达到0.2左右的错误率，这个对于银行来说还是太高。雷鸣：是否人脸识别当前，乃至很久一段时间，都只能作为身份识别的辅助手段，而很难作为主要手段使用？贾扬清-谷歌-research：所以需要增加其他的信息，比如说密码，语音等等。赵勇：虹膜肯定精确的多。有文献表明虹膜识别的能力达到192 bit entrophy，人脸现在好想只有十几个bit. 但是虹膜识别的侵入式比较高，距离近。不过人脸识别目前工作距离也不远。徐伟-百度IDL-杰出科学家：语音不见得比人脸好。贾扬清-谷歌-research：我觉得整合才能达到效果，偷一张照片容易，但是偷照片+偷语音+偷密码+偷卡，并且要一一匹配起来就很难了，每个单独的方法可能都只能达到十几个bit。雷鸣：那么所谓的刷脸支付，如何理解？徐伟-百度IDL-杰出科学家：卡和脸结合已经很好了。刷脸支付可以保证你的卡不被偷用，就是刷卡不用密码。雷鸣：@徐伟，刷脸支付实际是卡+脸（卡是唯一的）。赵勇：人脸支付的活体检测可能是个问题。也就是如何区分一张真的人脸还是一张照片，或者视频里的人脸。现在的活体检测往往要求人脸按照软件指引产生一些对应的移动，但是这样的体验并不好。徐伟-百度IDL-杰出科学家：比如商场买东西，不用担心活体的问题。赵勇：无论如何，使用多种手段，结合各种优势，来提高可靠性，必然会是未来主流。对智能硬件和机器人的影响雷鸣：下面我们在聊聊计算机视觉对智能硬件，以及机器人发展的影响。大家觉得计算机视觉和机器人发展之间会有什么相互关系？赵勇：机器人从很多角度来讲，只剩下感知技术一个瓶颈了，如果能够解决感知问题，机器人这件事情就能够大规模的发生。雷鸣：我记得和李飞飞教授聊得时候，他认为当前的机器人对世界的感知因为图像理解不深入，所有有很多局限，解决的好会非常促进。贾扬清-谷歌-research：机器人一直都是人工智能里面的一个大方向，不过我觉得机器人所需要的可能是广义的计算机视觉 - 因为机器人可以使用多种传感器，不光是单独图片或者视频的信息。徐伟-百度IDL-杰出科学家：认知技术会是更大的瓶颈，关键是听到了，看到了，该做什么。现在机器人还是缺乏决策推理的能力。赵勇：现在是听到、看到，但是听不懂、看不明白，由其在现实世界里。@贾扬清，我想到了DARPA的机器人大赛。贾扬清-谷歌-research：机器人领域另外的一个挑战是如何通过理解以后的信息来实现机器人的行为，在机器人领域目前很多方法都是case by case的，如何找到一个通用的算法（比如说reinforcement learning）是个挺大的挑战。徐伟-百度IDL-杰出科学家：现在语音识别做的不错了，不过计算机还是不知道该干什么。赵勇：先不去想特别复杂的、有人类思想和行为的机器人，就说能够在现实世界里完成具体功能的机器人，例如汽车，现在核心问题仍然是怎样把可靠的感知技术变成可以大规模推广的现实。雷鸣：@徐伟，语义理解，确实还在继续进展中。徐伟-百度IDL-杰出科学家：对，所以即使解决了计算机视觉问题，也只能作特定任务的机器人。贾扬清-谷歌-research ：这方面我觉得首先会在特定的方向上有突破（比如说自动驾驶汽车），因为从大规模推广的角度说，最后零点几的错误率是很重要的，这个需要很多工程上的努力。说句大家经常开玩笑的话，“机器学习最擅长的就是解决问题到一半”。赵勇：谷歌在无人驾驶方面做了很多领先的工作。听说在近期也要量产无人驾驶汽车了。当然目前这种技术依赖的激光雷达、差分ＧＰＳ，以及高精度ＩＭＵ，都价值不菲。距离走入平凡的汽车还有遥远的距离。徐伟-百度IDL-杰出科学家：特定任务的机器人离人们心目中的智能机器人还有有不同的。雷鸣：@徐伟，估计机器人的发展还是在于先发展和完善特定机器人。赵勇：人们心目中的智能机器人，我觉得还不是未来五年讨论的目标。徐伟-百度IDL-杰出科学家：是啊，所以我说认知是最大的瓶颈。赵勇：我觉得既然人都可以依赖视觉系统开车，我希望未来的计算机视觉也能帮助自动驾驶汽车完成任务。毕竟这项技术的成本低的多，而不是目前以谷歌汽车为主的这种路线。贾扬清-谷歌-research ：谷歌汽车现在其实也越来越多地使用计算机视觉的技术，所以这应该是一个大方向。徐伟-百度IDL-杰出科学家：依靠视觉自动开车，5年内应该有戏，不过激光雷达如果大规模生产，说不定就便宜了。雷鸣：我突然在考虑，是否人类考虑的那种强人工智能机器人根本就不会出来？想象工业革命，估计人类在工业革命初期也考虑一个像人一样什么都能做，都能做好，力气大的机器，可是最终我们到现在为止，还是各种专用机。赵勇：提到所谓的“强人工智能”，我个人挺悲观的。可能不是未来二十年能够看到的东西。徐伟-百度IDL-杰出科学家：二十年不算悲观了。100年算悲观！！贾扬清-谷歌-research ：我觉得强人工智能的概念可能是一个伪问题，因为从一定程度上“智能”在语义上就是我们还无法理解的东西，如果我们了解了一个东西是如何实现的，就不算智能了，这个在以前人工智能解决各种游戏（backgammon）以后，从大家的反响上就可以看出来。赵勇：关键是，我根本就没有见到很多靠谱的“强人工智能”团队。这个概念已经在市场上被炒作的泛滥。人工智能的发展，肯定还是由弱到强。现在连“弱智能”都没搞定，太早的讨论“强智能”似乎不靠谱。其他应用：医学、农业、商业、军事……雷鸣：我们拉回来到视觉，大家对计算机视觉在其他领域的应用，还有什么想法？比如农业，测量，医学，军事等有什么已知的有意思的公司或产品，或者未来5年可能有的机会。徐伟-百度IDL-杰出科学家：医学方面会有很大希望。贾扬清-谷歌-research ：这方面应用很多，农业、医学方面的公司都有。加州有一个公司采用视觉的技术来实现生菜的苗距管理，可以实现3-10%的产量提升，这方面的效果非常明显。赵勇：我看好商业数据分析、生命科学研究、以及安全领域（例如金融安全、公共安全领域）。贾扬清-谷歌-research ：在军事上也有很多应用，比如卫星图像的目标检测。在医学上，很多公司比如说metamind，enlitic，cellscope，都有很好的应用。雷鸣：@贾扬清，你最近刚刚发布了2.0版本caffe，相对前一个版本有什么重要更新啊？贾扬清-谷歌-research ：简单地说是希望使得大家在科研应用上更加容易一些，比如说可以更容易地构建一个sgd的算法，这个目前是我们的一个尝试性的refactor，具体我就不多打岔啦：）民用的卫星检测也很有市场，比如说通过监测港口的货船来预测经济走势（这个对很多金融公司都是很有用的信号）。赵勇：最近我看到华大基因创始人王俊讨论用大数据和人工智能解决生命科学问题，觉得很有意思。赵勇：说到机器人，除了家里用的扫地机器人，我个人最看好自动驾驶汽车成为人类历史上最早实现的大规模机器人。我很看好这项技术。如果成功，可以改善安全、交通效率和环保问题。环节二：问答探讨问题1：深度学习在医学图像有那些可以做的应用？贾扬清-谷歌-research：在医学上面，深度学习最直接的应用是医学图像检测，比如说癌症的病灶。更长远地说，可以通过自然语言处理等方法来index大量已知病例，来帮助医生安排医疗方案以及估计预后。问题2：多种传感器信息包括图像，语音等，用于机器人，有什么好的信息融合或协同学习的方法或研究？贾扬清-谷歌-research：协同学习目前还处于比较简单的后期融合上面。问题3：请贾先生介绍一下适用于图像、动作识别的基础算法有哪些？贾扬清-谷歌-research：图像识别基本上就是标准的CNN方法；物体检测有很多传统的方法，比如说Viola-Jones，最近比较有意思的是用CNN来做检测，比如说R-CNN和multibox；动作识别的话，可以用单纯的CNN，如果是视频的话也有结合sequence model（比如说LSTM）的方法。问题4：深层模型训练需要各种技巧，例如网络结构的选取，神经元个数的设定，权重参数的初始化，学习率的调整，Mini-batch的控制等等。现在有这么方面的理论指导吗?贾扬清-谷歌-research：这个还真不太容易，很多的时候有点像经验科学，Karen Simonyan在CVPR上的tutorial很值得看一下：http://image-net.org/tutorials/cvpr2015/recent.pdf问题5：请问，我看到大家对图像识别和大数据应用讨论很深入，但是却忽略了用户隐私和系统安全的考虑，不知道这方面是否有值得关注的研究？徐伟-百度IDL-杰出科学家：现在我们的网络空间已经很不安全了，未来如果大规模应用智能自动驾驶、或者机器人等时，我觉得网络安全的问题会更加突出”，隐私和安全需要区分对待。如果对人的价值足够大，人可能会愿意牺牲一些隐私。但是安全问题必须要有保证。问题6：赵总您觉得除了这些传统的方向，比如车辆，行人检测，车道线检测，道路检测等，在交通领域还有哪些计算机视觉可以入手解决的问题？车内？车外？交通流？赵勇：我也入行不久。简单分享一下：计算机视觉无非就是解决检测、跟踪和识别的问题。接下来，需要根据这些结果产生行业需要的功能。在交通领域里，科技上能作的事情不多了。因为汽车的行为分析并不特别苦难，问题是产品。怎样造出性能特别稳定的产品？怎样是的产品在各种条件下可靠的工作？怎样大幅度地降低产品成本，使得这种能够能够被大规模地应用。我觉得这些是智能交通领域里的主要挑战。问题7：关于迁移学习，现在的研究现状如何，业界有比较好的应用么？徐伟-百度IDL-杰出科学家：迁移学习在图像、语音、和语言都有成功的应用。ImageNet 模型的特征在很多其他问题都有很好的表现。word embedding也在很多语言问题里很有用。语音识别同样，DNN。问题8：刚才各位老师提到零点几的错误率很重要，那么对于控制机器学习的uncertainty方面，现在都有哪些技术或者手段呢？能否有可能像实验一样给出一个误差限？贾扬清-谷歌-research：传统机器学习其实是有比较完整的处理uncertainty的方法的，比如说概率图模型的输出往往是概率分布，本身就有uncertainty。DNN经常被人诟病的一点是因为它输出是一个point estimation，所以的确很难预测uncertainty。这方面一直有research的进展，但是没有off-the-shelf的解决方法。问题9：定制化深度学习专用芯片，从应用层面看，云端计算和嵌入式端计算，对芯片功能和性能设计，在需求上有什么异同?赵勇：云端计算的好处是性能高，容量大，功耗被藏在应用背后了。但是缺点就是对带宽的依赖。很多时候，实时应用，由其是移动的实时应用是不能依赖这种现场采集数据，后台解决问题的远程方式的。何况视觉信号的带宽成本非常高。所以我觉得未来大多数应用都必须实现人工智能前端实现。那么主要的挑战就是在前端，怎样设计高通量、高性能和低功耗低成本的芯片。Nvidia在Tegra系列中作了一些非常有意义的产品，但是未来还需要急需提高性能降低成本；还有一些公司，例如CEVA, Movidous也出了一些有趣的产品。无论是怎样的产品，有一件事情是确定的，未来的人工智能计算机必须实现更强大的并行计算。问题10：由于对数据的大量需求，计算机视觉和机器学习在当前是否只适应大公司开发和利用，如果小公司想做这块，有哪些好的突破点？赵勇：我们也是小公司，我们也找到了一些方法解决数据问题。更重要的数据收集手段，可能是循序渐进，让自己的产品在工作中自动采集更多的数据，来iteratively改善产品的性能。问题11：对于图像检测问题，正负样本比例往往非常悬殊，即便是CNN这样强大的判别式模型做起来也有相当的难度。而对于人来说，检测某种物体似乎是一个生成式的问题。请问对此目前有没有比较好的解决方案？贾扬清-谷歌-research：正负样本比例悬殊是一个传统的机器学习问题，这一般可以通过resampling或者reweighting来解决，或者在后期基于测试数据/应用场景的实际分布来recalibrate。目前生成式模型（generative model）有一些有意思的研究，比如说Facebook发表的用CNN来生成图像的文章。但是总的来说，实际的识别问题还是使用区分式模型（discriminative model）效果更好。问题12：对于图像检测问题，正负样本比例往往非常悬殊，即便是CNN这样强大的判别式模型做起来也有相当的难度。而对于人来说，检测某种物体似乎是一个生成式的问题。请问对此目前有没有比较好的解决方案？徐伟-百度IDL-杰出科学家：特定物体的检测，如果训练数据充分，大多数都可以解决的不错了。问题13：图像识别技术，比如要做一个化学苯化物的识别因为纸质和摄像头环境因素影响比较大怎么做精准识别？大量的图片知识库？”贾扬清-谷歌-research：这个问题我不是很了解，一般来说，一个比较大的数据库还是必要的，特别是输入的图片和一般图像差别很大（化学试剂图片vs一般网图）的时候。问题14：请问Caffe什么时侯能支持多GPU？贾扬清-谷歌-research：已经支持啦:/BVLC/caffe/pull/2870问题15：现在有用FPGA开发前端、并完成深度学习任务的吗？贾扬清-谷歌-research ：据我了解百度、微软以及很多startup（teradeep，nervanasys）等都有这方面的尝试或者产品。问题16：现在有用FPGA开发前端、并完成深度学习任务的吗？&徐伟-百度IDL-杰出科学家：据我了解百度、微软以及很多startup（teradeep，nervanasys）等都有这方面的尝试或者产品&—百度已经用到产品了。问题17：请问贾先生,既然深度学习调参没有经验,那么您是靠什么指导训练的呢？贾扬清-谷歌-research ：说实话，一个就是不断试错，另一个就是通过现有网络来finetune，比如说从inception开始，然后改变loss function。问题18：目前关于视频上传的带宽要求很高，有没有视觉传输的协议？赵勇：有很多视频传输协议(h263,264 etc.)，也有专门针对网络视频信号传输的协议。但是视觉信号的数据量实在是太大了。有不能压缩得太严重，否则细节信息的确实会给后台分析软件带来很多困扰。问题19：图像识别技术，比如要做一个化学苯化物的识别，因为纸质和摄像头环境因素影响比较大怎么做精准识别？大量的图片知识库？赵勇：我觉得并不是所有问题都必须依赖深度学习，或者机器学习来解决。问题20：请问美国有哪些大公司在做机器学习和nlp在医疗方面的应用？贾扬清-谷歌-research：我只知道IBM Watson。如果不包括startup的话，公开的可能的确只有IBM，但是很多公司（比如说Kaiser，美国的一个医疗+保险集团）也在低调地做一些努力，这个方面还是处于起步阶段吧。问题21：深度学习最终看到的只是分类结果，如何看到学习的特征，然后Digits工具学习到并显示的特征该如何看？（对应的是传统图像处理方法而人工设计的特征）贾扬清-谷歌-research：这个更多的是在visualization上的一些技术细节，比如说matplotlib等等，可以参考caffe里的filter visualization的示例。应该不是很困难。问题22：目前关于视频上传的带宽要求很高，有没有视觉传输的协议？贾扬清-谷歌-research ：如果前端可以做计算，我们甚至可以直接传输从视频中得到的语义信息，比如说“有个人走过来了”，然后只传输有需求的视频部分。当然，随着计算能力的提高和网络技术的提高，说不定将来这都不是问题了。赵勇：在今天的计算机视觉领域里有一个让我比较担忧的现象，就是大多数学生都认为计算机视觉只剩下机器学习，甚至是深度学习了。其实还有很多子领域，比如computational photography，visual slam等等领域，非常非常重要。甚至很多时候，物理领域里发生的一些突破，会导致传感器领域的巨大创新，使得人们原本研究的很多问题都不存在了。所以我觉得计算机视觉领域，必须重视多学科的进展。贾扬清-谷歌-research：很同意赵勇的观点，深度学习只是计算机视觉（以及人工智能）的一个方面，虽然最近有长足的发展，但是我们不应该过于限制在深度学习的框架上。徐伟-百度IDL-杰出科学家：在深度学习之上，还需要有更多的东西。不过深度应该是必须的。雷鸣：各位，今天的沙龙到此结束，非常感谢各位嘉宾的参加。我代表10个群，近3000名热心听众表示感谢！！！相关阅读?------------------------------------------------添加个人微信号&jiqizhixin2014&：申请加入机器之心翻译合伙人计划。国内外前沿科技公司和产品寻求报道。通过朋友圈查看历史文章。更多文章请点击“阅读原文”。?本文经作者雷鸣授权转载。}

淘宝游戏网