tfboys橙光游戏如何自救把语音放入

橙光怎么制作语音吧-百度贴吧
签到排名:今日本吧第个签到,
本吧因你更精彩,明天继续来努力!
本吧排名:
本吧签到人数:0
可签7级以上的吧50个
本月漏签0次!
成为超级会员,赠送8张补签卡
连续签到:天&&累计签到:天
超级会员单次开通12个月以上,赠送连续签到卡3张
发贴红色标题
签到六倍经验
兑换本吧会员
赠送补签卡1张,获得
助攻总额: 43W
发表后自动分享本贴
使用签名档&橙光感人语录_zuciwang.com
橙光感人语录
exo橙光小游戏经典感人语录 后来的后来,我想了很多与你有关的故事。犹如藤蔓予我心沉默奇异地扎下根来, 多年之后,终将埋葬在那些暗潮汹涌的时光里,再也不会淡去。————《深海归墟》(时光藤蔓)我希望,这个世界上,能够有一个人,会记得我曾经存在过。————《深海归墟》(时光藤蔓)当所有的诅咒和仇恨都被尽数收容在我支离破碎的灵魂里, 这个城市惟独只有影子是我最后的陪伴。————《深海归墟》(迷失之魇)从今天开始,我活在这个世界上的意义。只剩下复仇了。————《深海归墟》(迷失之魇)同一时间,有的人会遇见对的人,有的人却只能错过一个人,再去伤害另一个人————《如果你是我想要的未来》(迷失在你眼里的海.朴灿烈)企鹅为什么生活在荒无人烟冰冷彻骨的南极呢,因为他们做错了事情,它们被上帝遗弃了,遗弃在与这个世界的温暖所背道而驰的地方。永远不会感受到温暖,就如同,永远不会得到任何救赎。————《如果你是我想要的未来》(世界上最高幸运的企鹅小姐.金钟大)幸福从未遗弃过任何人,只是有的时候,它来的晚了点————《如果你是我想要的未来》(世界上最高幸运的企鹅小姐.金钟大)———————————————————防抄袭————————————————————我是生活在地狱的人就算死了也无法去到天堂————《如果你是我想要的未来》(我在未来等你.黄子韬)如果一个人,他被生命里最重要的人遗忘,那他与这个世界唯一还有意义的联系,是不是也一并失去了呢?————《如果你是我想要的未来》(我在未来等你.黄子韬)天注定了这样的我会在一生最灿烂的时刻遇到他————《如果你是我想要的未来》(我在未来等你.黄子韬)我能够在最爱你的时刻死去,此生便会至死不渝————《如果你是我想要的未来》(第三种爱情.金钟仁)因为我最终是要上路的人,上路的人,从来孤身————《最后岁月酿成花》(宿命.张艺兴)既然下决心走了,就不要回头看,他会随你去时的脚步埋入黄土————《最后岁月酿成花》(宿命.张艺兴)======求采纳======
《末生》经典语录,橙光游戏 有时候,迷茫作为一种心情的宣泄,是可以平衡我们的内心的,无可厚非。迷茫,很多时候也如同彩虹前面的乌云和暴雨、电影周围的黑暗一样,与美丽、精彩同在。总而言之,迷茫也是人的一种神态,一种喜怒哀乐的演绎与诠释,不可或缺。但是,如果将迷茫上升至逃避的介质,那就成了一种借口。借口,最终欺骗的,还是自己。
exo橙光游戏一些伤感句子 后来的后来,我想了很多与你有关的故事。犹如藤蔓予我心沉默奇异地扎下根来, 多年之后,终将埋葬在那些暗潮汹涌的时光里,再也不会淡去。————《深海归墟》(时光藤蔓)我希望,这个世界上,能够有一个人,会记得我曾经存在过。————《深海归墟》(时光藤蔓)当所有的诅咒和仇恨都被尽数收容在我支离破碎的灵魂里, 这个城市惟独只有影子是我最后的陪伴。————《深海归墟》(迷失之魇)从今天开始,我活在这个世界上的意义。只剩下复仇了。————《深海归墟》(迷失之魇)同一时间,有的人会遇见对的人,有的人却只能错过一个人,再去伤害另一个人————《如果你是我想要的未来》(迷失在你眼里的海.朴灿烈)企鹅为什么生活在荒无人烟冰冷彻骨的南极呢,因为他们做错了事情,它们被上帝遗弃了,遗弃在与这个世界的温暖所背道而驰的地方。永远不会感受到温暖,就如同,永远不会得到任何救赎。————《如果你是我想要的未来》(世界上最高幸运的企鹅小姐.金钟大)幸福从未遗弃过任何人,只是有的时候,它来的晚了点————《如果你是我想要的未来》(世界上最高幸运的企鹅小姐.金钟大)我是生活在地狱的人就算死了也无法去到天堂————《如果你是我想要的未来》(我在未来等你.黄子韬)如果一个人,他被生命里最重要的人遗忘,那他与这个世界唯一还有意义的联系,是不是也一并失去了呢?————《如果你是我想要的未来》(我在未来等你.黄子韬)天注定了这样的我会在一生最灿烂的时刻遇到他————《如果你是我想要的未来》(我在未来等你.黄子韬)我能够在最爱你的时刻死去,此生便会至死不渝————《如果你是我想要的未来》(第三种爱情.金钟仁)因为我最终是要上路的人,上路的人,从来孤身————《最后岁月酿成花》(宿命.张艺兴)既然下决心走了,就不要回头看,他会随你去时的脚步埋入黄土————《最后岁月酿成花》(宿命.张艺兴)======求采纳======
橙光游戏逆袭之星途闪耀中的励志语录 时间比你想象的要宝贵,守时是成功的第一法则。 一个人有多少修养,要看他是否沉得住气。越高贵的人,越谦卑。擦肩而过的机遇,往往会决定以后的人生。勇敢朝着梦想前进吧!人生没有特殊定位,任何事都有可能。无论做什么事,学好规则才能少走弯路。
橙光游戏八尾经典语录 哇哇哇!!鲛哥终于还是把衣服脱了,唉~~鲛哥看是命不久矣了啊!!根据晓里面的死亡名单来看,凡是脱衣的都要死啊(脱衣必死,还真讽刺啊)借别人的一句话来说就是“一脱成名”(看来这个衣服还是不能随便乱脱啊!)以上纯属饭后闲聊娱乐,如有雷同,纯属巧合!总体来说471话中鬼鲛和鲛肌融合后产生的异形鬼鲛(哇!我的妈呀!连异形都出来了,那铁血战士也要登场了吧!)。在470话和471话中鬼鲛分别说了他的鲛肌对小比(叫他小比好打一点--||)的CKL很感兴趣。小比的CKL是雷属性而且加上八尾的CKL,使得鲛肌兴奋不已。从上面可以看出连鬼鲛都是第一次看到鲛肌变的这么大,所以可以肯定鲛肌对雷属性的CKL是非常喜欢地。而且在小比数次攻击中它不断吸收小比的CKL使得它得到进化。471话中鬼鲛的新造型——异形鬼鲛,无疑成为了这一话中最大的亮点。鬼鲛他自己也说了,他可以不断的通过战斗吸收对手的能量,而这个吸收并转送给鬼鲛的物体无疑就是他的刀——鲛肌。想象一下,在战斗中不断的吸收对手的能量后在转送给自己,单这一点他就能立于不败之地。而且鬼鲛所拥有的CKL相当于人柱力,这一点很有可能是鲛肌给他带来的。还有一点就是融合后的新体,这个小弟好好的想了一下。这会不会是想ZZ一样的第二状态呢?ZZ的第二状态是受的大蛇丸的咒印,那鬼鲛这个会不会是鲛肌给他带来的呢?如果是这样的话,那么就说得通了。不过要知道正确的答案还有看以后的剧情了。还有一点就是小比的能力,小比不但能使用尾兽之衣和变成实体化的八尾老牛,还可以使用尾兽之衣的第二状态。大家都知道鸣人在尾兽之衣到达第四根尾巴时就不能清晰的控制自己,但是小比能完完全全的控制封印在自己体内的八尾能力,而且看样子他和封印在体内的八尾很处得来!从小比和八尾的对话看来,他们是处于一个相互帮助的模式下,而且感情也要比鸣人和九尾好多了各位都知道鸣人在用尾兽之衣到第四根尾巴后就变的意志不清楚了,完完全全是受情绪的控制,也可以说是受九尾的一半控制。但是小比在尾兽之衣实体化后的样子和鸣人一样,但是小比可以完全由自己的意识来控制八尾能力。用嘴简单的说法来说就是八尾接受了小比,没有向九尾那样想从封印者体内出来。这样就使得能让小比完全控制八尾的能量,不能说完全控制,但是能基本控制八尾的能量也是很厉害的了。
橙光游戏可以使用别人书上的经典语录吗?就是说不征求别人意见的情况下 如果要征用句子最好列出句子出自哪里,不然被人误会了可不好
EXO橙光游戏吸血鬼的十字架里的经典语录 他说, 如果对她好是一种罪, 他不介意永远犯罪, 直到他化为灰烬的那一天为止。以血为誓, 我将永远陪伴你,使你永不孤寂······如果,你欠我的,你已经还清了。 那么,我欠你的,该怎么还?玫瑰在银色月光中盛开,那是失去了翅膀的堕天使沉酣的梦颜,蔓延,怒放,在神的恩泽眷顾不到的深渊……东方即晓,是新的开始。他藏得太好,而我,太笨。那一句简单的话语,带着一种淡漠却刻骨的情感。我会永远对你好,并且永远陪伴你,如果对你好是一种罪,我不介意永远犯罪,知道我化为灰烬的那一天。
怎么做橙光游戏做成这样啊?这是截得图,语句都是游戏里的,我要用自己的语言 10分是指手机?把手机图片扣图抠好,然后导入立绘,然后可以放上去咯~
(C) 2017 ZuCiWang.Com 投诉:wanmeila(@)qq.com拒绝访问 | www.3gmfw.cn | 百度云加速
请打开cookies.
此网站 (www.3gmfw.cn) 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(ec43a7-ua98).
重新安装浏览器,或使用别的浏览器&figure&&img src=&https://pic2.zhimg.com/v2-2b422ea66cb751baa5682a4_b.jpg& data-rawwidth=&2160& data-rawheight=&1440& class=&origin_image zh-lightbox-thumb& width=&2160& data-original=&https://pic2.zhimg.com/v2-2b422ea66cb751baa5682a4_r.jpg&&&/figure&&p&2017年是人工智能被推上风口的一年,浏览设计网站、订阅号,常看到的一个标题就是设计师会不会被人工智能代替,传统用户体验设计师们也察觉到了一丝危机,更多人开始转向新的设计领域,希望不被快速更迭的时代抛弃。&/p&&p&语音交互作为AI时代的新兴交互方式得到了很多人的关注,查阅资料时发现网上关于语音交互的内容真的不多,相信大家也有同样的感受,本篇将所收集的语音相关文章做了一个集合,供大家浏览~&/p&&p&文章按模块分区,建议新人先阅读入门篇再慢慢研究进阶篇~&/p&&p&&br&&/p&&h2&一.语音交互(入门篇)&/h2&&p&&a href=&http://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s/qgAGQHYgGJWsEg9jatLkfw& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&抓住那个语音交互设计师&/a& &/p&&p&这篇文章大家应该很熟悉了,文中提到的《Designing Voice User Interfaces:Principles of Conversational Experiences》(中文译名《语音用户界面设计》)目前已出版了中文版,由阿里交互设计师翻译,内容并不晦涩,读起来非常轻松,是了解语音交互最适合不过的一本书了,大家可以买来看看~&/p&&p&&a href=&http://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s/tYyfDWAFTu5TeZA-Lg206w& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&有关会话式UI的思考&/a& &/p&&p&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&GUI到CUI,如何把握智能时代的用户体验?&/a& &/p&&p&上面两篇文章其实是关于CUI的,由于目前用到语音技术的交互多为语音+屏幕的形式配合实现的,觉得放在这里也很合适,亚马逊的规范中也有提到关于配合语音交互屏幕该如何显示的问题。&/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.ui.cn/detail/305504.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&打造优秀语音交互体验的设计建议&/a& &/p&&p&&br&&/p&&h2&二.语音交互(进阶篇)&/h2&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/pd/714793.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&VUI语音交互设计:三步打造任务导向型对话场景&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/821879.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&如何让天猫精灵对话更自然?我提出了6个优化方法&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/769598.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&AI Persona——语音交互设计中的角色画像&/a& &/p&&p&这篇文章墙裂推荐的,AI persona其实就是产品虚拟角色模型,文中很详细的介绍了什么是AI persona,以及建立AI persona的方法。如果你不懂AI persona,联想一下微软小冰、小娜、小米的小爱音箱,你是不是很容易就想起小冰小娜的头像,还有小爱音箱的二次元形象?这就是虚拟角色模型啦。&/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.ui.cn/detail/307139.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&语音交互中的“等待体验”研究&/a& &/p&&p&这篇很有意义&/p&&p&&br&&/p&&h2&三.行业规范(进阶篇)&/h2&&p&最推荐的内容在这里,特别亚马逊、Google、中兴的内容值得反复阅读,细细品味&/p&&p&亚马逊:&/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/817525.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Amazon Alexa 语音设计指南(一):设计流程&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/817842.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Amazon Alexa 语音设计指南(二):用户说什么&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/818786.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Amazon Alexa 语音设计指南(三):Alexa怎样回答(1)&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/819274.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Amazon Alexa 语音设计指南(四):Alexa怎样回答(2)&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/819632.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Amazon Alexa 语音设计指南(五):设计自查表&术语表&/a&&/p&&p&墙裂推荐拜读&/p&&p&&br&&/p&&p&Google:&/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/753468.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google对话式交互规范指南(一):对话式UI以及它的影响力&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/753475.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google对话式交互规范指南(二)理解对话机制,优化对话体验&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/754843.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google对话式交互规范指南(三):设计原则与方法&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/755973.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google对话式交互规范指南(四):对话UI设计流程与步骤&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/757658.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google对话式交互规范指南(五):设计走查清单&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/758294.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google对话式交互规范指南(六):像你的用户一样,善于合作化的表达&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/759182.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google对话式交互规范指南(七):开启口语表达的力量&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/760707.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google对话式交互规范指南(八):通过确认和应答给予用户信心&/a& &/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/ucd/761405.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google对话式交互规范指南(九):对话中不存在“错误”&/a&&/p&&p&墙裂推荐拜读&/p&&p&&br&&/p&&p&中兴:&/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.upachina.org/new/detail.aspx%3FID%3D754& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&移动终端的语音交互设计原则初探&/a& &/p&&p&2014年出的文章,写的非常好&/p&&p&&br&&/p&&p&百度:&/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.upachina.org/uploads/41.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&百度2017语音交互体验蓝皮书&/a& &/p&&p&从个人的阅读感受来说这篇干货并不算多,比起百度UXC(现在官网改名叫MUX了)发过的两篇文章差了许多,但还是贴出来了,作为输入法一类的收集APP多少还是有些指导性的&/p&&p&&br&&/p&&p&天猫精灵:&/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//doc-bot.tmall.com/docs/doc.htm%3Fspm%3D0.0.0.0.wyWUuH%26treeId%3D393%26articleId%3DdocType%3D1& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&阿里天猫精灵语音交互设计实践&/a& &/p&&p&感觉内容和亚马逊、Google差不多,不过作为开发者指南也是很有意义的&/p&&p&&br&&/p&&h2&四.语音技术(进阶篇)&/h2&&p&&a href=&https://zhuanlan.zhihu.com/p/?group_id=475520& class=&internal&&语音识别尚未解决&/a& &/p&&p&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&关于语音交互的不得不知的技术知识&/a&&/p&&p&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&语音交互界面的声音标记&/a&&/p&&p&&a href=&http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s/iUM69EZXU5VMl6WqMv_Dpw& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&语音识别类产品细分及其应用场景&/a& &/p&&p&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&填槽与多轮对话&/a& &/p&&p&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&AI产品经理需要了解的语音交互评价指标&/a&&/p&&p&&br&&/p&&h2&五.其他&/h2&&p&&a href=&http://link.zhihu.com/?target=http%3A//www.woshipm.com/it/761470.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&为什么畅销3000万台的Echo智能音箱,在国内30万台都卖不到&/a& &/p&&p&&a href=&https://www.zhihu.com/question/?sort=created& class=&internal&&语音交互会变成未来的主流交互方式吗?&/a& &/p&&p&&br&&/p&&p&&br&&/p&&p&作为集锦,一出现好的文章就会来更新的~(侵删)&/p&&p&各位如果有相关的文章也可以给我留言,都会考虑补充进来~,欢迎大家多多留言讨论~&/p&
2017年是人工智能被推上风口的一年,浏览设计网站、订阅号,常看到的一个标题就是设计师会不会被人工智能代替,传统用户体验设计师们也察觉到了一丝危机,更多人开始转向新的设计领域,希望不被快速更迭的时代抛弃。语音交互作为AI时代的新兴交互方式得到了…
&p&&b&一家语音识别的人工智能公司,想利用算法+数据,将线上和线下服务打通,押宝物联网。&/b&&/p&&blockquote&&p&&b&微信公号:新经济100人(qiyejiagc)&/b&&/p&&p&&b&撰稿|王宇寒&/b&&/p&&/blockquote&&p&2016年3月,围棋人工智能程序AlphaGo击败李世石,再次引发人工智能关注热潮。「坐了十几年冷板凳」的云知声CEO黄伟,顺着物联网兴起的兆头,也许迎来语音识别最好的发展时机。&/p&&p&2003年前后,这个行业曾经经历过一次高潮,因为语音识别实验室识别精确度达到90%以上水平,大小公司蜂拥而至。2005年全球领先的语音识别公司Nuance上市,市值最高突破90亿美元。2008年,科大讯飞上市,国内市场占有率一度占到70%以上。&/p&&p&但是,只有极少数公司在这一波浪潮里突出重围。语音识别在实际使用场景精确度降到很低,短时间内技术解决基本无望。大公司纷纷关闭语音识别相关部门,热潮不过昙花一现。&/p&&br&&h2&&b&01 &/b&&b&平台化实现弯道超车&/b&&/h2&&p&移动互联网的兴起、机器深度学习(AlphaGo的主要工作原理)的发展,让语音识别再次呈现上升之势。苹果2亿美元收购Siri Inc.公司,2011年发布Siri语音助手。同年,谷歌连续收购语音通信公司SayNow和语音合成公司Phonetic Arts,亚马逊收购语音识别公司Yap。&/p&&p&2012年6月,梁家恩创立云知声。这个时候,科大讯飞已经在国内语音识别市场筑起了深厚的壁垒。要想实现弯道超车,梁家恩想得很清楚:第一是算法;第二是数据。如果算法是引擎,那么数据就是燃料。哪怕算法得到极大提升,如果没有油的话,车还是跑不起来。&/p&&p&梁家恩决定做开发者平台。对于一家创业公司而言,平台包袱无疑很重,团队也有过纠结。「我们必须把平台先做起来,让市场看到云知声的能力。」语音识别技术最关键的是先要有充足的语料积累,不光是找人去录语音,更需要用户真实的数据。而做平台能够在短时间内完成大量的语音数据积累,以实现弯道超车。&br&&/p&&p&淘宝上买机器、普通游戏显卡,10个人不到的工程师团队,自学深度学习算法,3个月平台上线。&/p&&p&「没有人想到这样一家刚成立的小公司真的能做出来。」云知声董事长兼CTO梁家恩现在说起来还颇为得意。2012年9月云知声发布的语音平台,当时精确度只能做到85%,如果真正应用到实际场景,甚至会降到60%。到2013年底,语音数据已从最开始的800小时积累到3000小时,精确度提高到95%,平台上的开发者大大小小已有8000多家。4年以来,云知声开发者平台每年保持400%的增长量,目前每天调用量在1.5亿到2亿次之间。&/p&&p&平台也打出了云知声的名气,语音识别技术在人工智能领域相对成熟,这家公司开始考虑商业化。一开始,他们就选择了从B端切入。云知声CEO黄伟始终认为,在人工智能领域,B2C在中国很难实现,这也是黄伟一直坚持不做单品的原因。&/p&&p&和搜狗合作,云知声一战成名。&/p&&p&当时搜狗和百度都在抢时间点,想率先发布语音助手。但搜狗本身并没有这部分技术,将市场上各家的产品一一测试,综合价格因素,一周时间便与云知声达成合作。 &/p&&p&小i机器人也是云知声早期的客户。对方给银行提供服务,之前都是文本,后来逐渐拓展到语音领域。科大讯飞是它当时的服务提供商,收费很高,小i机器人便找到云知声。云知声以相对低的价格拿下客户。&/p&&p&黄伟说:「在市场、技术不成熟的前提下,过高的使用门槛无疑是杀鸡取卵。」&/p&&p&和乐视的合作,除了技术上的相对优势以外,乐视当时也处于起步阶段,而科大讯飞更愿意围绕运营商来提供服务。当乐视自身尚没有证明自己能力时,科大讯飞相对是保守的,这就给了云知声机会。&/p&&p&云知声早期合作公司多为互联网公司,他们更敢于尝试新的东西,快速迭代。传统公司相对保守,除了产品本身好坏,出身等其他因素也会被纳入考量。&/p&&p&「在云知声规模还很小的时候,对于客户而言,如果选择大厂商,出了问题是大厂商的责任。但如果选了云知声,出问题的话,决策者自己需负很大责任。」黄伟告诉「新经济100人」。&/p&&p&2013年初,先后供职摩托罗拉中国研究中心、Nuance,一手创立盛大语音创新院的黄伟加入云知声,担任CEO。「从读书的时候开始,之后10年工作,我终于等到一个可以放手去做这件事情的机会。」黄伟穿着深绿色衬衣,牛仔裤,戴着无框眼镜,头发抓得一丝不苟。谈话之间偶尔取下手腕上的佛珠拨弄。 &/p&&p&「商业上的技巧我们确实吃过很多亏,我们不是商务驱动型的公司,最开始就是拿产品过去,实打实地测试,比识别率、比响应速度等。」&/p&&br&&h2&&b&02 &/b&&b&差异化赢得时间&/b&&/h2&&p&云知声IoT事业部副总裁康恒说:「平台给云知声带来的另一个收获,我们得以发现市场所聚焦的需求。通过不同行业用户在平台上的使用频度,能够精准捕获市场需求。」车载、家居、医疗和教育,是云知声的四大重点领域。&/p&&p&2014年,市场上已有汽车厂商将安卓系统和车载设备相结合,黄伟隐约看到车联网的兴起之势。很快,云知声成立专门的车载语音技术团队。&/p&&p&从整个车载语音设备行业来看,前装市场规模大,但产品周期长,且科大讯飞深耕已久。后装市场满足用户购车后的个性化需求,市场规模小,但少有入局者。&/p&&p&当时的后装市场鱼龙混杂,大大小小的厂商遍地都是,质量良莠不齐。黄伟也是摸着石头过河,只能一再谨慎,尽可能选择优质厂商合作,采取统一授权以减小风险。&/p&&p&截至2016年上半年,云知声车载行业的产品激活量近两百万台,收入规模达千万级别。&/p&&p&智能家居是云知声的又一重镇。&/p&&p&随着物联网概念的兴起,几乎所有的家居厂商都在探索智能家居的未来。语音识别在智能手机上的应用并不是刚需,触摸已经能够解决大部分的应用场景。对于鲜少拥有触控屏幕的家居产品,语音交互很快成为厂商间的共识。&/p&&p&早在2014年,云知声和一些家电巨头就有过接触,但先期落地的产品主要集中在创业公司。这些创业公司希望生产一些智能化的产品,虽然量都不大,云知声技术团队仍全力配合开发,不断试错,打磨技术。&/p&&p&「2015年,我们在家居行业的策略是和小公司玩;从2016年起,我们也要和巨头共舞。」黄伟说。&/p&&p&美的一直看重智能家居,尤其空调这个单品,从2012年起便不断寻找智能化解决方案,和科大讯飞、韩国Powervoice都有过合作。&/p&&p&2014年底,云知声开始和美的接触。对方要求明确:第一、用户直接通过语音方式控制空调,且不受噪声影响;第二、一定距离的远场语音交互得以实现;第三、方案成熟,成本控制。&/p&&p&远场语音交互是关键中的关键。&/p&&p&当时市场上普遍解决方案都是八个麦克风收音,虽然语音识别准度得以提高;但能耗、安装等问题却接踵而来。&/p&&p&云知声团队做了大量先期工作,发现像空调这类产品,它永远都是贴墙放,八个麦克风在实际应用上是多余的。云知声提出双麦克技术,两个麦克风间距不过三厘米,在任何产品上均可自然适配,即插即用。&/p&&p&一下少了六个麦克风,如何保证远场语音交互能达到测试要求,云知声花了一年半来解决这个问题,2015年底投入生产。&/p&&p&日,美的智能语音空调正式发布。&/p&&p&从2015年开始,云知声涉足医疗领域。2013年前后,云知声就想往医疗方向发展,初步接触下来,当时的时间点太早,需求尚没有爆发。&/p&&p&语音识别在人工智能各领域中虽然相对成熟,但远没有到顶。除了高度的提升,广度则是所有语音识别厂商需要发力的领域:比如特定行业的语音识别、歌曲识别、方言识别等。像之前在线上语音识别精确度能达到96%,当落实到和医院合作时,精确度急剧降到60%左右。&/p&&p&云知声销售杨拓刚开始做医疗客户时,也很不适应:医学里有大量专业术语,在日常生活中是鲜少应用。如何保证系统知识库既能准确识别日常对话交流,同时又能对这些专业术语进行分辨,平衡很重要。&/p&&p&当时客户需求反应过来,团队马上根据不同科室,短时间内人力收集专业信息,同时辅以机器学习,通过大量医疗数据积累推动算法提升。经过跟医院场景和医学术语的深度定制,语音识别的精确度提升至95%,部分科室经过优化达到98%。&/p&&p&2015年底,云知声的语音识别服务在北京协和医院四个科室上线使用,2016年起全院推广。「最开始我们确实会选择一些相对竞争不那么充分的领域先行切入,但我们不会为了回避竞争,而选择一些根本不存在的市场。」黄伟说。 &/p&&p&Nuance在医疗市场,光美国一个国家的年收入就接近20亿美元。&/p&&h2&&b&03 &/b&&b&押宝芯片深耕物联网&/b&&/h2&&p&2015年,亚马逊推出家用智能音响Echo,被视为目前语音识别领域最出色的实体产品,依托亚马逊平台,2016年上半年,出货量300万台。&/p&&p&微软推出小冰,百度将语音团队独立,阿里巴巴将语音识别技术全面应用在阿里云系统上,腾讯智能语音服务系统也上线。&/p&&p&这一波人工智能热潮里,巨头们纷纷入场。&/p&&p&黄伟相信语音交互一定是人机交互最自然的形态。前端语音交互提供入口,后端互联网提供服务。只有二者充分的结合,才能为用户带来更多价值。&/p&&p&而「云端芯」则是在这一轮语音交互竞争中黄伟的希望所在:云是线上平台,沉淀大量基础数据;端最开始是智能手机,现在已全面向物联网迁移;芯片则是云知声所有技术和服务的载体。&/p&&p&早在2014年底,云知声完成来自高通的5000万美元B轮融资后,便开始发力芯片领域。对于物联网而言,终端对功耗非常敏感,市场上现有芯片往往搭载很多不必要的功能,标准程度、稳定性达不到要求。 &/p&&p&芯片的设计、制作困难重重。云知声之前和一家公司合作,当时在产品部门测试全部通过,结果到了工厂,实际操作中不适配。工厂的生产是有排期的,如果一定时间内不能测试通过投入生产的话,整个产品线都要延期。对方给了两天时间,云知声的工程师直接驻厂,一边不断调试一边和对方沟通。&/p&&p&现在,云知声与高通合作的特殊芯片,功能集中,能耗剧降,适配程度大幅提高。&/p&&p&2007年,第一代iPhone推出,接下来近十年里,移动互联网风生水起。随着智能手机普及率提升,2016年智能手机全球出货量增长几乎停滞,根据市场研究公司Strategy Analytics数据,全球智能手机出货量2016年二季度为3.404亿部,相比于2015年同期的3.38亿部,仅增加了1%。&/p&&p&那移动互联网之后呢?&/p&&p&「物联网将是一个比移动互联网更伟大的时代。」黄伟告诉「新经济100人」。&/p&&p&目前云知声几乎将全部资源押宝物联网布局,智能家居、车联网、智慧医疗和教育四大领域,合作客户近两万家。他认为云知声的未来将是物联网领域内一家优秀的人工智能服务公司,让机器更好地理解用户,交互变得自然而智能。&/p&&p&「我希望它会成为万物互联之下的BAT。」&/p&&p&&b&· E N D ·&/b&&/p&&figure&&img src=&https://pic4.zhimg.com/92a96cdebfa4fe7b8f69fad129fd44ab_b.jpg& data-rawwidth=&5351& data-rawheight=&2419& class=&origin_image zh-lightbox-thumb& width=&5351& data-original=&https://pic4.zhimg.com/92a96cdebfa4fe7b8f69fad129fd44ab_r.jpg&&&/figure&
一家语音识别的人工智能公司,想利用算法+数据,将线上和线下服务打通,押宝物联网。微信公号:新经济100人(qiyejiagc)撰稿|王宇寒2016年3月,围棋人工智能程序AlphaGo击败李世石,再次引发人工智能关注热潮。「坐了十几年冷板凳」的云知声CEO黄伟,顺着…
&figure&&img src=&https://pic4.zhimg.com/v2-4b18c8fecabc5da66f78e_b.jpg& data-rawwidth=&800& data-rawheight=&600& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&https://pic4.zhimg.com/v2-4b18c8fecabc5da66f78e_r.jpg&&&/figure&&blockquote&简评:语音识别近年来已经达到了和人类相似的水准,简单说能用了,不过还有很大的提升空间,有些问题依旧尚未解决。&/blockquote&&p&自深度学习以来,语音识别错误率急剧下降,但尽管如此,距离人文水平的语音识别还相去甚远。语音识别还有许多故障的模式,承认这些错误并且采取措施来解决对于语音识别的进步至关重要。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-16d7d469f24b0d1fc874ef7_b.jpg& data-rawwidth=&629& data-rawheight=&217& class=&origin_image zh-lightbox-thumb& width=&629& data-original=&https://pic1.zhimg.com/v2-16d7d469f24b0d1fc874ef7_r.jpg&&&figcaption&语音识别错误率年下降&/figcaption&&/figure&&p&语音识别对于人类的进程是有意义的,这两年语音识别的改进令人惊讶,但还是有些值得改进的方面。&/p&&h2&口音和噪音&/h2&&p&语音识别中最明显的缺陷就是处理口音[1]和背景噪音。最直接的原因是,大多数训练数据由具有高信噪比的英文口音组成。但训练数据不会自行解决这个问题,有很多语言都是有各种方言和口音的,为所有不同的情况来注释数据是难以实现的。构建一个高质量的语音识别器来解决重音英语就需要 5000 个小时的训练音频。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-d56d213ad3ccda499f48_b.jpg& data-rawwidth=&624& data-rawheight=&211& class=&origin_image zh-lightbox-thumb& width=&624& data-original=&https://pic1.zhimg.com/v2-d56d213ad3ccda499f48_r.jpg&&&figcaption&红色是人类识别的误字率,蓝色是百度 Deep Speech 2 系统[2]的误字率,有些口音,机器识别还是不行。&/figcaption&&/figure&&p&在背景噪音方面,处于一辆移动的车内,SNR(信噪比,越高越安静)低至 -5dB 并不罕见。人们很容易在这种情况下互相理解语音内容。而语音识别器,也会更快的识别,从上图可以看到,在高信噪比的情况下,机器的识别能力和人一样强,而低 SNR(噪音情况下)机器识别就不行了。&/p&&h2&语义错误&/h2&&p&单词错误率通常不是语音识别系统中的实际目标。我们关心的是&i&语义错误率&/i&。一句话能否听懂语义很重要。&/p&&p&举个例子,我们说「let’s meet up Tuesday」但机器可能识别为「let’s meet up today」,有时候我们会用错词但是句意通顺,如果机器能够把「up」放弃,就会成功预测为「let’s meet
Tuesday」,句意正确。&/p&&p&5% 以上的 WER(word error rate 误字率)无法被接受,举个例子,平稳平均一句话大约 20 个单词,如果 5% 的误字率,那么相当于 20 个词就有一个识别错误,相当于每句话都会错。如果机器的语音识别能够做到就算个别单词错了,但句意不变,那也是可以接受的。&/p&&p&微软最近的研究人员对比了人类和人类同级别的语音识别器常犯的错误[3]:他们发现机器更容易混淆「uh」和「uh huh」,这两种有完全不同的意义,「uh」语气词,「uh huh」是反问用的。&/p&&h2&&b&单信道,多音源&/b&&/h2&&p&一个好的会话语音识别器必须能够根据谁在说话,能够摘取需要的音频。它也应该能够理解音频,就算各种音源重叠。人们不需要嘴对着麦克风就能够准确的采集音频,语音识别器应该在任何位置都可以发挥功效。&/p&&h2&Domain 变化&/h2&&p&口音和背景噪音只是需要注意的两个方面,还有很多其他要注意的变化:&/p&&ul&&li&环境变化导致的混音。&/li&&li&从硬件的产生的差异。&/li&&li&用于音频和压缩的解码器。&/li&&li&采样率。&/li&&li&演讲者的年龄。&/li&&/ul&&p&大多数人甚至不会注意到一个mp3和一个普通 wav文件之间的区别,但这些在语音识别中是很重要的。&/p&&h2&上下文&/h2&&p&你会注意到,基准测试的人机交互错误率实际上相当高,想一下,如果你和一个朋友交流,20 个词中有一个错词,你可能还能继续沟通下去,但是机器就不行了。&/p&&p&究其原因,因为语句是要依托上下文,在特定的语境中才能够更好的展现其意义。机器识别和人类在语音识别上的一些明显差异:&/p&&ul&&li&正在讨论的话题以及前言。&/li&&li&说话人的视觉线索,包括面部表情和嘴唇运动。&/li&&li&关于所说的话题的预先预习。&/li&&/ul&&p&目前,Google Android(原生)的语音识别器可以通过你的联系人列表,获取你联系人的识别信息(他们的名字)[4]。Google Map 可以根据地理位置来缩小活动范围,更精准抓取你的目的地信息[5]。&/p&&p&当结合了不同信息之后,语音识别会更加精准,不过联系上下文的语音识别也才刚刚起步。&/p&&h2&未来五年&/h2&&p&言语识别中还存在许多开放性和挑战性的问题。这些包括:&/p&&ul&&li&扩大新领域,口音和远场,低 SNR(噪音状态)语音能力。&/li&&li&语音识别融入语境,联系上下文。&/li&&li&音源分离。&/li&&li&语义错误率和创新的评估方法。&/li&&li&超低延迟和高效推理。&/li&&/ul&&p&我期待着五年内能解决以上的语音识别问题。&/p&&p&&br&&/p&&h2&注释:&/h2&&ul&&li&[1]Just ask anyone with a &a href=&https://link.zhihu.com/?target=https%3A//www.youtube.com/watch%3Fv%3D5FFRoYhTJQQ& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Scottish accent&/a&. &/li&&li&[2]These results are from &a href=&https://link.zhihu.com/?target=https%3A//arxiv.org/abs/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Amodei et al, 2016&/a&. The accented speech comes from &a href=&https://link.zhihu.com/?target=http%3A//www.voxforge.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&VoxForge&/a&. The noise-free and noisy speech comes from the third &a href=&https://link.zhihu.com/?target=http%3A//ieeexplore.ieee.org/document/7404837/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CHiME&/a&challenge. &/li&&li&[3]&a href=&https://link.zhihu.com/?target=https%3A//www.microsoft.com/en-us/research/wp-content/uploads/2017/06/paper-revised2.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Stolcke and Droppo, 2017&/a& &/li&&li&[4]See &a href=&https://link.zhihu.com/?target=http%3A//ieeexplore.ieee.org/document/7178957/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Aleksic et al., 2015&/a& for an example of how to improve contact name recognition. &/li&&li&[5]See &a href=&https://link.zhihu.com/?target=https%3A//static.googleusercontent.com/media/research.google.com/en//pubs/archive/43817.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Chelba et al., 2015&/a& for an example of how to incorporate speaker location. &/li&&/ul&&p&&br&&/p&&p&&br&&/p&&blockquote&原文:&a href=&https://link.zhihu.com/?target=https%3A//awni.github.io/speech-recognition/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Speech Recognition Is Not Solved&/a&&/blockquote&&p&&br&&/p&&p&日报延伸阅读:&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&苹果的手写汉字识别如何实现的?&/a&&/p&&p&&br&&/p&&h2&欢迎关注:&/h2&&ul&&li&专栏「&a href=&https://zhuanlan.zhihu.com/jiguang-daily& class=&internal&&极光日报&/a&」,每天导读三篇英文,价值、思考、共鸣。&/li&&li&网易云音乐的电台「极光日报」,每周两期,听园长瞎白话。&/li&&/ul&&p&&/p&
简评:语音识别近年来已经达到了和人类相似的水准,简单说能用了,不过还有很大的提升空间,有些问题依旧尚未解决。自深度学习以来,语音识别错误率急剧下降,但尽管如此,距离人文水平的语音识别还相去甚远。语音识别还有许多故障的模式,承认这些错误并且…
&figure&&img src=&https://pic3.zhimg.com/v2-be2dadaac5d417c13c377_b.jpg& data-rawwidth=&472& data-rawheight=&254& class=&origin_image zh-lightbox-thumb& width=&472& data-original=&https://pic3.zhimg.com/v2-be2dadaac5d417c13c377_r.jpg&&&/figure&&p&当你下班拖着一身疲惫回到家,打开房门倒在沙发上, “Alexa,turn on the lights.” 一室敞亮随之而来。这就是Amazon
Echo的魅力,这款上线于2014年的智能音箱,仅用了1年半时间就拿下了五百万的销售业绩。圆圆的机身,简约的设计,用户只需叫一声“Alexa”即可唤醒Echo,通过语音对话设置闹钟,控制音乐播放,控制家电设备。这是亚马逊布局语音市场的关键一步棋,押宝Echo能成为智能家居的中控入口。Echo的火爆将整个语音市场带向高潮,让其他人看到了语音交互在智能硬件上的威力,将其价值提升到一个新的层面。&/p&
&p&语音交互的兴起与人工智能的发展息息相关。深度学习的突破性进展带动了人工智能的产业发展,随着高性能计算芯片GPU,TPU等的出现,海量数据的存储计算得到有效处理,算法的不断提升为人工智能商业化奠定了基础,语音识别作为深度学习的应用之一也有了突破性发展,语音识别的准确率已高达90%以上。&/p&
&p&此外,智能手机带来的移动互联网红利隐隐见顶,各大巨头和创业公司纷纷押宝物联网会成为下一代的网络巨星。而语音,作为一种成熟且智能的人机交互方式,被众多的智能硬件相中,成为新一代的人机交互入口,这一点我们可以从爆款Echo中发现。重要的地位使得各大巨头纷纷开始在语音市场下重注,而创业公司也摩拳擦掌准备大干一番。下面小编来盘点一下语音市场的国内外主要玩家。&/p&
&p&&b&技术壁垒瓦解
Nuance逐渐凋零&/b&&/p&
&p&说到语音识别,就不得不提Nuance这家传奇公司,Nuance专注研究语音技术,为企业提供语音技术支持,当年这家公司随着Siri的上线曾一夜成名,达到市场占有额70%的辉煌战绩。后来各大巨头公司开始研发自己的语音技术,赶上深度学习的技术突破,逐渐瓦解了Nuance的技术壁垒,Nuance因此被甩出智能语音的前线队伍,逐渐凋零。&/p&
&p&&b&Siri智商提高
苹果布局智能家居&/b&&/p&
&p&Siri作为一个曾经的鸡肋产品,一直是用户们调侃娱乐的对象。苹果坚持不懈地更新改进Siri,企图让其变得更加智能。2015年苹果收购了语音技术公司VocalIQ,来改进siri的语音交互能力。此外,苹果2014年开放了Homekit智能家居平台,家电通过连接Homekit后,用户就可以通过Siri直接控制家电设备,这是Siri作为语音助手的一个非常实用的场景方向,苹果希望以智能语音助手为入口,撬开智能家居的大门。&/p&
&p&&b&发力智能音箱
亚马逊一骑绝尘&/b&&/p&
&p&亚马逊用了四五年时间潜力研制出智能音箱Echo,伴随着内嵌的智能语音助手Alexa一起推向市场,同时赢得了口碑和销量。2015年6月,亚马逊宣布将Alexa语音平台免费开放给第三方,同时开放Echo的语音互动技能开发,截止2017年2月底,Echo已拥有了10000项技能,而Alexa API也接入了很多厂商的硬件产品中,亚马逊以此获得的数据优势和本身的产品服务让其他竞争者只能望其项背,此外,以硬件固有的研发周期来看,近几年内Echo都很难被赶超了。&/p&
&p&&b&加码Google
Home 谷歌暂居下风&/b&&/p&
&p&Google在语音方面的布局和亚马逊很像,同样是推出自己的智能语音助手Assistant,并将其内嵌到不同的智能硬件中,其中最有名的莫过于谷歌去年推出的Google Home,同样是一款智能音箱设备,谷歌想借此抢滩智能家居市场。然而不同于亚马逊的是,谷歌这一系列语音产品晚出了两年,在Alexa已经合作多家硬件产品时,Google Assistant才刚刚准备对外开放,比起亚马逊的先发优势,谷歌只能暂居下风。但是谷歌作为一个世界级的巨头公司,有其技术和资源上的优势,谷歌去年收购了语音交互开发平台API.ai,希望借此增强其语音识别技术的语境理解和对话自然。&/p&
&p&&b&专注技术研究
微软稳步上升&/b&&/p&
&p&微软的智能语音助手Cortana经常被用户称赞对话自然,形同真人。这也是微软一直专注在做的事情,收集扩充语音对话数据,不断完善Cortana的“智能”程度,让Cortana变得更“人性”。去年十月,微软宣布其训练的语音识别技术已达到人工水平,实现5.9%的词汇差错率,微软认为这一成绩有助于产品提升,增强已有产品的语音识别技术。&/p&
&p&除了国外巨头在语音市场的布阵,国内也是硝烟四起,其中以科大讯飞为首的语音巨头领跑整个市场,另外几家语音技术的创业公司也突出重围,占据了一席之地。&/p&
&p&科大讯飞作为老牌语音公司,为企业提供语音技术支持。为了扩大市场利润,赶上人工智能的潮流,科大讯飞逐渐将眼光转向to
C市场,在2016年的新品发布会上,公布了智能家居,智能车载,智能服务机器人等一系列产品,搭载其顶尖的语音识别技术,科大讯飞把智能语音这一新的人机交互方式发挥的淋漓尽致,此外,科大讯飞还与京东达成战略合作,京东拥有巨大的渠道优势和用户资源,双方强强联手入局智能硬件的野心势不可挡。&/p&
&p&百度的布局则是另一番景象,百度免费开发了其语音识别,语义理解,语音合成一系列技术服务,也推出了智能语音助手度秘,着力于用户的生活场景,如订咖啡,订餐厅等。有别于其他巨头自主研发智能硬件,百度近日推出了Dueros智能语音芯片,内嵌此芯片的硬件设备拥有对话能力,加速硬件产品的智能化,百度希望借此打造以语音为入口的智能生态圈。&/p&
&p&不得不提的阿里巴巴和腾讯也将语音识别技术应用到自己的产品上,但目前没有十分明显的布局趋势。&/p&
&p&另外国内有几家创业公司也不容忽视,他们凭借自身团队的技术力量,自主研发出了能媲美科大讯飞的语音识别技术,其中就包括了云知声,思必驰和出门问问这些后起之秀。&/p&
&p&云知声成立于2012年,凭自身技术拿下了与搜狗的合作,为搜狗语音助手提供技术支持,B轮拿到了高通的4000万美元融资,借助高通的芯片技术优势,推出集成了智能语音交互的芯片,针对智能家居和智能车载场景进行语音技术优化。云知声CEO黄伟透露,目前云知声的合作伙伴数量已超过2万家,覆盖用户超过1.8亿。思必驰成立于2007年,拥有全套语音类知识产权,作为云知声的竞争对手,思必驰同样专注智能家居,智能车载等智能硬件领域,并获得了阿里巴巴领投的2亿元C轮融资。未来这两家公司会在智能硬件的芯片供应上继续角逐。&/p&
&p&另外一家骨骼清奇的公司是出门问问,曾因拿到谷歌C轮融资而名声鹊起。同样自主研发语音识别全套技术,这家公司却选做搭载自家语音技术的智能硬件产品,其2015年发布的Ticwatch拿下了智能手表销量第一的成绩,之后还推出了智能后视镜等产品,最近出门问问因为与大众汽车的合作再次聚焦在镜头下,与大众汽车共建合资公司,希望用智能语音打造更好的乘车体验,出门问问负责研发,大众中国负责市场、销售以及品牌工作。对出门问问来说,与大众的合作将拓宽其产品的渠道和市场优势,更好地树立自身品牌。&/p&
&p&语音市场之所以火爆起来,是因为外界相信语音交互可以成为下一代革命性的人机交互方式。你想想,无论在家里还是在车上,只要你一声令下,所有设备就会运转起来帮你完成要做的事,多么爽!然而理想和现实发展还有很大差距,李开复先生就曾提出过,背景噪音、口音、语速等情况都会严重影响语音识别的准确率。另外,目前智能家居,智能车载等行业还未成熟,距离语音市场的爆发期预计还有很长一段时间。&/p&&p&(封面图片来自SAR Insight & Consulting)&/p&&p&文章属个人观点, 欢迎留言讨论。&/p&
当你下班拖着一身疲惫回到家,打开房门倒在沙发上, “Alexa,turn on the lights.” 一室敞亮随之而来。这就是Amazon
Echo的魅力,这款上线于2014年的智能音箱,仅用了1年半时间就拿下了五百万的销售业绩。圆圆的机身,简约的设计,用户只需叫一声“Alexa…
&figure&&img src=&https://pic2.zhimg.com/v2-cf4cb5877_b.jpg& data-rawwidth=&550& data-rawheight=&385& class=&origin_image zh-lightbox-thumb& width=&550& data-original=&https://pic2.zhimg.com/v2-cf4cb5877_r.jpg&&&/figure&&p&“话题终结者”的能力向来不可小觑,他们总能用简单的几个字让火热的气氛瞬间冷冻至冰点。如果你不幸中招,被“哦”、“呵呵”们围绕,那该怎么办?&/p&&p&不用担心,我们专门开通知乎Live专场(&a href=&https://www.zhihu.com/lives/953472/messages& class=&internal&&&span class=&invisible&&https://www.&/span&&span class=&visible&&zhihu.com/lives/8704134&/span&&span class=&invisible&&/messages&/span&&span class=&ellipsis&&&/span&&/a&),邀请了科大讯飞AIUI平台业务线丁大师来为大家介绍一位新朋友——AI。想必大家对它的大名早就有所耳闻,而今天丁大师将为我们介绍它最强有力的靠山“&b&人机交互”&/b&。&/p&&p&主讲老师:&b& 丁瑞&/b&&/p&&p&科大讯飞AIUI开放平台业务线&/p&&p&项目负责人、AIUI系统架构师&/p&&figure&&img src=&https://pic2.zhimg.com/v2-cf4cb5877_b.jpg& data-rawwidth=&550& data-rawheight=&385& class=&origin_image zh-lightbox-thumb& width=&550& data-original=&https://pic2.zhimg.com/v2-cf4cb5877_r.jpg&&&/figure&&p&
(图片来自网络)&/p&&p&&b&【什么是人机交互】&/b&&/p&&p&所谓&b&人机交互&/b&(Human-Computer Interaction,HCI),简单理解就是&b&人与计算机之间的信息交换&/b&,这种交换&b&是双向的&/b&,不仅是人到计算机,也包括计算机到人。我们的日常生活不乏人机交互的身影,最常见的就是与Siri聊天。&/p&&p&&b&【人机交互的发展历程】&/b&&/p&&p&不过,想要成长为不被吐槽、屡被“调戏“的模样可不是一夕之功。&b&人机交互&/b&最早是以&b&键盘+鼠标的形式&/b&出现在人们面前的,一经面世便被誉为PC时代最伟大的发明。但此时的人机交互离我们普通人的距离依旧很远很远,直到智能移动设备逐渐普及,它才算慢慢进入我们的生活,我们开始习惯使用多点触控、手写、手势以及部分语音来操控智能设备。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-c9b57bef53_b.jpg& data-rawwidth=&1280& data-rawheight=&720& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&https://pic3.zhimg.com/v2-c9b57bef53_r.jpg&&&/figure&&p&而伴随着智能语音技术的飞速发展,人机交互也从&b&“能听会说”迈向“能理解会思考”&/b&,&b&语音交互成为人机交互重要入口&/b&,被广泛应用于&b&智能硬件、智能家居、智能机器人&/b&等领域,&b&智能语音也迎来了新的市场增长点&/b&。&/p&&p&&br&&/p&&p&&b&【语音人机交互四大痛点】&/b&&/p&&p&尽管拉近了人与机器的距离,语音人机交互也因为使用过程不够顺畅引来了人们的疯狂吐槽,究其背后是&b&语音人机交互存在的四大痛点&/b&。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-125aa815e70b19b221db22_b.jpg& data-rawwidth=&1280& data-rawheight=&720& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&https://pic4.zhimg.com/v2-125aa815e70b19b221db22_r.jpg&&&/figure&&p&但是,作为行走AI世界多年的高手,讯飞可不在怕的。2015年我们便向大众宣布我们获得了一个宝物,那就是&b&AIUI&/b&。&/p&&p&&br&&/p&&p&&b&【人工智能时代的人机交互界面—AIUI】&/b&&/p&&p&AIUI作为&b&人机智能交互界面&/b&,旨在实现人机之间交互无障碍,使人与机器之间的交流,像人与人一样,可以通过语音、图像、手势等自然交互的方式,进行持续、双向、自然地沟通。&/p&&p&&b&1、AIUI的核心突破&/b&&/p&&p&&b&AIUI最大的突破在于实现了传统人机交互链路向自然人机交互链路的重大转变。&/b&&/p&&p&&b&传统的人机语音交互链路&/b&,在前端设备接受用户说话的语音,在本地或者云端做语音识别,将语音识别成文本,然后对识别出的文本做语义理解,对语义理解的结果做出一定的处理给出回答的文本,最终通过TTS,将文本合成为语音,传回客户端进行播报。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-118eaf312da6c1f4fce7bac_b.jpg& data-rawwidth=&1280& data-rawheight=&720& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&https://pic1.zhimg.com/v2-118eaf312da6c1f4fce7bac_r.jpg&&&/figure&&p&这种简单的人机语音交互链路很容易导致前面所说的四大痛点的出现,&b&使用过程有一个点断了,就需要对着机器来回不停地讲&/b&。最终导致用户体验严重下降,使用户失去对语音交互的信心。&/p&&p&AIUI自然人机交互链路远比我们单点的技术要复杂,它将传统人机交互链路进行多种打点,将语音识别进行拆分,大致有&b&音频采集、语音唤醒、声源定位、人声检测、断句、语音听写、语义理解等主要过程&/b&。&/p&&p&&b&●&/b& &b&音频采集&/b&&/p&&p&远场的人机交互场景下,基本采用的都是多麦克阵列的方案,采集的是多通道音频和参考信号,这块主要是在硬件的结构上需要做好处理,减少因硬件结构带来的噪音源,同时结合麦克风阵列的定向拾音,采用前端声学算法解决噪音、混响、回声等带来的影响。&/p&&p&&b&●&/b& &b&语音唤醒&/b&&/p&&p&&b&唤醒是人机交互的对话主要触发方式&/b&,就像你要和你一个人说话,就得首先喊一下这个人的名字,才能开始进行持续的对话。同时,在语音对话的过程中,仍然要支持持续的唤醒,就像你和一个人在对话,另一个人喊你,也是需要响应的。&/p&&p&&b&●&/b& &b&声源定位&/b&&/p&&p&机器被唤醒后,就需要知道说话人的方位,这样才可以定向的拾音,做降噪处理,同时增强说话人的声音。这个定位主要是用多麦克风的波束成形技术,通过唤醒事件运算得到。&/p&&p&&b&●&/b& &b&人声检测&/b&&/p&&p&由于远场的语音识别,将会把很多的噪音和无效语音采集进来,这时候需要能够有效监测人声,来过滤一些非人声,这个一方面是为帮助交互界面进行较为友好的显示,另一方面,是为了降低网络和识别的负载。&/p&&p&&b&●&/b& &b&断句&/b&&/p&&p&语音断句是为了能够判定人说了一句完整的内容,以便进行识别,理解,给予响应。&/p&&p&&b&●&/b& &b&语音听写、语义理解&/b&&/p&&p&对于识别来说,首先要满足的就是持续的音频流识别,作为持续的语音交互方案,不可避免要吸收很多无效的语音,拒识是必须,把噪音和无关语音进行过滤,否则会造成对话的混乱。最后把有效识别结果,送入支持上下文对话的引擎进行语义理解,语义理解不只包含用户说话意图,还要包括内容的获取,形成完整的交互链路。&/p&&p&语义理解和内容获取的结果,最终交由TTS模块进行语音合成,而AIUI语音合成模块,支持了情感合成和情景合成,即在不同的情境下,合成带有不同感情色彩的语音,比如高兴、生气、悲伤等。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-8c59e6a9e8bb0d67568f_b.jpg& data-rawwidth=&1280& data-rawheight=&720& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&https://pic3.zhimg.com/v2-8c59e6a9e8bb0d67568f_r.jpg&&&/figure&&p&&br&&/p&&p&&b&2、AIUI的独门招数&/b&&/p&&p&基于人机交互链路的转变,AIUI也习得了多个独门招数,但若论起秒杀,莫过于&b&远场拾音、全双工交互、多轮对话&/b&这三招。靠它们,&b&AIUI几乎能够解决上述语音人机交互的四大痛点。&/b&&/p&&p&&b&●&/b& &b&远场拾音&/b&&/p&&p&首先亮出AIUI第一招,远场拾音。目前识别距离已经达到5米,且识别率已经突破了90%,同时有国际领先的回音消除技术,消除量可以达到50db,无论是稳态的噪音抑制还是动态噪音抑制,也都可以得以体现。并且,麦克风还可以呈现360°声源定位。是不是瞬间被它征服?&/p&&p&当然,在这一功能的背后,是前后端的共同协作与提升。在前端我们使用了麦克风阵列硬件,它&b&通过波束成形和精准定位的技术方案,解决远场拾音,噪声、混响等问题&/b&;同时为解决因近场、远场的语音信号所具有的一定差异,&b&在后端的语音识别上结合了基于深度神网络训练、针对远场环境的声学模型&/b&,从而真正解决识别率的问题。&/p&&p&&b&●&/b& &b&全双工交互&/b&&/p&&p&全双工交互看起来很复杂,但若将它类比到你与他人的日常交流,你可能就能很快领会到它的强大。&b&人与人之间的交流,最重要的就是持续、双向、可打断。&/b&全双工交互就是一个这样的&b&全链路&/b&的贯穿过程,不只是持续的拾音和网络传输,&b&更需要包括持续的语音唤醒、人声的检测、智能断句、无效语音拒识等各个模块相互配合&/b&,才能完成。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-3f1c0e5d816fe03c6c9e849eef535bf5_b.jpg& data-rawwidth=&1280& data-rawheight=&720& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&https://pic4.zhimg.com/v2-3f1c0e5d816fe03c6c9e849eef535bf5_r.jpg&&&/figure&&p&全双工交互作为一个持续的交互过程,&b&语音的识别和理解,需要能够做出快速的响应&/b&。这就需要&b&前端的人声检测和智能断句。&/b&&/p&&p&传统的断句是基于能量的检测来判定的,但是有两个主要缺点,一是无法解决噪音和无效的语音,另外就是对说话人的要求较高,中间不能有停顿。如果后端点设置的太端,容易造成截断;后端点太长,又会造成响应不及时。&/p&&p&所以为了解决这两个问题, &b&AIUI采用了基于模型的人声检测和基于语义的断句&/b&。基于模型的检测可以有效解决噪音和无效语音,这块主要是通过采集不同的语音数据,基于深度神经网络的训练的声学模型,可以过滤一部分噪音,把有效的语音传送到云端,进行持续的交互。&/p&&p&&b&基于语义的断句主要是在识别过程中,用语义信息来预测和判定。&/b&如果检测到一句完整的有效内容,可将结果送入语义理解模块,从而保证结果可以最快返回到端上。当然它必须解决一个问题,就是用户在使用过程中所出现的停顿。以点歌为例,用户经常会说,我想听……周杰伦的歌,中间会有思考过程。此时后端的断句引擎必须等待后续的有效音频,给出完整的理解内容。但如果用户停顿时间过长,后端引擎也会给出响应,比如回答:您要听谁的歌,以做出更好的引导提示。&/p&&p&&b&●&/b& &b&多轮对话&/b&&/p&&p&假设你现在需要找人问路,你会先告诉对方你的目的地,而被问的人可能会问你这个目的地的明显特征。当信息描述越来越精确,他可能会告诉你过去的路线。这种交互是需要通过多轮对话才能完成的。&/p&&p&如果AI能够如上述问路过程一样,那你就不会再吐槽人工智能不智能了。AIUI就集成了这种智能的多轮对话系统,这一系统采用&b&多对话场景管理、跨场景信息共享、长时记忆&/b&,语义理解的系统升级为基于贴弧的深度学习系统,可以很好的解决语义消歧等问。它能基于内容主动提问,且上下文与业务密切相关,利用否定词还能进行纠错。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-7dfe0dc4fec736d623c158_b.jpg& data-rawwidth=&1280& data-rawheight=&720& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&https://pic4.zhimg.com/v2-7dfe0dc4fec736d623c158_r.jpg&&&/figure&&p&&br&&/p&&p&今天我们关于”人机交互“的介绍到此结束,知友们是不是对这位”神秘“的朋友加深一些了解了呢?如果大家有任何关于人机交互的疑问,欢迎在评论区留言,我们可以进一步交流和探讨。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-ed7bd4c2c7de8199cbf7c2_b.jpg& data-rawwidth=&299& data-rawheight=&233& class=&content_image& width=&299&&&/figure&&p&&/p&
“话题终结者”的能力向来不可小觑,他们总能用简单的几个字让火热的气氛瞬间冷冻至冰点。如果你不幸中招,被“哦”、“呵呵”们围绕,那该怎么办?不用担心,我们专门开通知乎Live专场(),邀请了科大讯飞AIUI平台业务线丁大师来为大…
&figure&&img src=&https://pic1.zhimg.com/v2-296a15bdcaff291d7578_b.jpg& data-rawwidth=&1242& data-rawheight=&924& class=&origin_image zh-lightbox-thumb& width=&1242& data-original=&https://pic1.zhimg.com/v2-296a15bdcaff291d7578_r.jpg&&&/figure&&p&2周前,咱们“AI产品经理大本营”的AI产品经理闭门会(第2期)顺利进行,本期特邀嘉宾&b&@阿恒&/b& ,是前猎户星空(傅盛公司)-&b&小雅智能音箱&/b&“音乐”功能的产品经理。&/p&&p&大家知道,音乐功能,是智能音箱上最重要的skill之一;下面的分享,确实是干货满满——&/p&&p&&br&&/p&&h2&一、小雅音箱的音乐功能设计及深入思考 | 阿恒&/h2&&p&&b&1、音乐功能体验设计&/b&&/p&&p&1)&b&排序体验&/b&。目前约&b&65%&/b&的用户Query是&b&点对点&/b&的播放需求,三类问法,即歌手(王菲的歌)、歌名(我要听红豆)、歌手+歌名(王菲的红豆)。但很多内容方提供的歌单结果中,并没有按照热度排序,导致默认出现的歌曲,有时候反而会是冷门歌曲,并不是用户想要的。——解决办法:用包含热度排序的某家内容方查询结果,来映射到其他内容方的歌单,经过优化,目前能基本保证前十首是OK的。&/p&&p&2)&b&个性化&/b&。大约&b&20%&/b&的Query是“&b&随便来首歌&/b&”等没有明确指向性的,需要基于用户画像做相关推荐。&/p&&p&互联网时代,豆瓣的个性化推荐非常细,用户听A歌曲,“10秒切歌”和“20秒切歌”后,下一首推荐的歌曲B,都会不一样。至于网易云音乐,体验优势主要在于推荐的歌单,更多是运营能力和积累。而小雅这边,也在做个性化推荐,但一开始不可能像豆瓣那么细的颗粒度,需要先搭架子和做MVP。&/p&&p&3)&b&类型(标签)点播&/b&。一首抒情的歌、一首英文歌等等这种。这类需求,&b&之前只有10~15%,但未来2年可能会占据50%+&/b&,用户的需求(习惯)会变化。&/p&&p&总体的,&b&用户逐渐变得泛化地获取内容,而不是有目的地提问。&/b&另外,目前核心难点还是NLU(自然语言理解)。&/p&&p&&br&&/p&&p&&b&2、音乐内容&/b&&/p&&p&1)内容是重要的必要条件,但大部分版权都在腾讯手里。&/p&&p&2)但内容不是充分条件,更重要的还是产品体验。所以&b&最可怕的市场搅局者,可能是腾讯、网易等这种产品基因更强的公司。&/b&&/p&&p&3)&b&未来,内容可能反而需要围绕新的终端(音箱?)来打造。&/b&类比iPhone上的app生态。&/p&&p&&br&&/p&&p&&b&3、巨头重视音箱的原因&/b&&/p&&p&1)&b&互联网—&物联网&/b&。万物联网的时代,已经开始到来了,比如电饭煲等等;物联网尤其是智能家居的控制中枢的承载角色很可能是智能音箱,有连接万物的价值。&/p&&p&2)&b&语音交互是入口&/b&。智能音箱背后是语音这种更天然的交互方式,并且是唯一的方式,这使得它在语音智能的入口效应会更强。新的交互方式,一定得是全新的载体。&/p&&p&3)&b&智能音箱极有可能成为另一个超级终端&/b&,海量内容也将围绕它生产,海量的用户+时长,音箱在未来会跟手机抢用户时间。&/p&&p&4)5年内,可能智能音箱相对机器人更有机会。&/p&&p&&br&&/p&&p&&b&4、关于早期的AI产品化&/b&&/p&&p&1)&b&不应该排斥脏活累活&/b&。比如做TTS,为了找2个音色很相似的2个人来录音频数据(一个说中文,一个说英文),花了很大的精力,最终TTS效果非常自然(特别是中英文混合的时候),使得亚马逊的人都飞到国内来交流学习。&/p&&p&2)&b&很重要的是,尽快让用户更多的使用,积累数据和用户行为理解。&/b&&/p&&p&3)&b&重点解决头部query,特别是识别后的语义纠错,可以在短时间内快速提高特定domain的产品体验。&/b&比如针对某个具体功能,能在2~4周内,提升5~10%。&/p&&p&4)总之,&b&技术是必要条件,但不是充分条件,产品体验更是关键。&/b&比如,虽然部分技术环节还有待加强,但小雅音箱整体的产品体验,应该是同类产品中前2、3位的。&/p&&p&&br&&/p&&p&注:延伸参考阅读,hanniman的原创文章《&a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMjM5NzA5OTAwMA%3D%3D%26mid%3D%26idx%3D1%26sn%3Def538a9d799d776e247e%26chksm%3Dbed8646589afed73aacac15d499acdd4ba13d2cdbe9b565ed2f66bc8c5d4522bec%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&智能音箱的品类战争和未来&/a&》&/p&&p&&br&&/p&&h2&二、做手机语音助手太难了 | 小昭&/h2&&p&1、&b&承载了太多的用户需求,没有一个固有的用户认知(边界)&/b&。比如滴滴就是打车的,饿了么就是叫外卖的,但语言助手是干什么的?用户不能有个公认的共识。&/p&&p&2、&b&产品定位不稳定,因为语音交互方式(自然,口语化)导致需求增多(不可控)&/b&。甚至有些用户问的问题,超出想象,比如姥姥的妹妹该怎么称呼?&/p&&p&3、&b&信息内容缺失&/b&。能提供的服务有限,小公司很难获取太多资源支持。&/p&&p&4、&b&很难衡量,什么该做,什么不该做。&/b&&/p&&p&5、但实际生活中的例子看到,语音助手,让四岁的小女孩方便的获取信息,自然交互。&/p&&p&&br&&/p&&h2&三、知识图谱的应用前景 | 沂龙&/h2&&p&1、在2012年时,Google希望优化搜索结果,运用到了知识图谱进行关联搜索推荐,可以帮助对搜索结果进行更全面的信息展示。&/p&&p&2、知识图谱有助于解决问题:&b&知识计算(问答应用)、推理预测、搜索推荐引擎(原本是基于大数据的推荐)&/b&。而基于图谱的推荐,会把两个看起来距离比较远但有关联的内容进行推荐;加了图谱后,1度、2度推荐会比较有应用场景。&/p&&p&3、推荐方法:&b&基于内容推荐,基于用户推荐。&/b&&/p&&p&总之,知识图谱在人工智能领域十分有应用前景。&/p&&p&&br&&/p&&p&注1:“AI产品经理闭门会”,是仅限饭团“AI产品经理大本营”成员可报名参加的线下闭门交流机会;每期邀请5~7名AI产品经理(或有产品sense的AI技术人才)参加。&/p&&p&我会根据团员的背景和需求,来match每次参加人员,甚至会另外邀请重量级嘉宾。比如第1期嘉宾是@赵帅 前微软小冰创始团队产品经理,详见《&a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMjM5NzA5OTAwMA%3D%3D%26mid%3D%26idx%3D1%26sn%3D87b5c3fe1e08b849c6866053dfbfc8b7%26chksm%3Dbed8646f89afed79bdf799efb6aad2728a94eebdcscene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&AI产品经理、语音交互和聊天机器人 | AI产品经理闭门会第1期干货分享&/a&》 。&/p&&p&&br&&/p&&p&注2:饭团“&a href=&https://link.zhihu.com/?target=http%3A//fantuan.guokr.net/groups/219/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&AI产品经理大本营&/a&” ,是黄钊hanniman建立的、&b&行业内第一个“AI产品经理成长交流社区”&/b&,通过&b&每天干货分享、每月线下交流、每季职位内推&/b&等方式,帮助大家完成“&b&AI产品经理成长的实操路径&/b&”,详情可见 &a href=&https://link.zhihu.com/?target=http%3A//fantuan.guokr.net/groups/219/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&fantuan.guokr.net/group&/span&&span class=&invisible&&s/219/&/span&&span class=&ellipsis&&&/span&&/a& 。&/p&&p&&br&&/p&&p&---------------------&/p&&p&作者:黄钊hanniman,图灵机器人-人才战略官,前腾讯产品经理,5年AI实战经验,8年互联网背景,微信公众号/知乎/在行ID“hanniman”,饭团“AI产品经理大本营”,分享人工智能相关原创干货,200页PPT&a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMjM5NzA5OTAwMA%3D%3D%26mid%3D%26idx%3D1%26sn%3D784934afea29bea448cff68fbdd0d7cb%26chksm%3Dbed864b889afedae09e4ea2a17fa82fefffabb14f6eccf%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&《人工智能产品经理的新起点》&/a&被业内广泛好评,下载量1万+。&/p&
2周前,咱们“AI产品经理大本营”的AI产品经理闭门会(第2期)顺利进行,本期特邀嘉宾@阿恒 ,是前猎户星空(傅盛公司)-小雅智能音箱“音乐”功能的产品经理。大家知道,音乐功能,是智能音箱上最重要的skill之一;下面的分享,确实是干货满满—— 一、小…
&figure&&img src=&https://pic4.zhimg.com/v2-600fcb629fc43df2686150_b.jpg& data-rawwidth=&1240& data-rawheight=&752& class=&origin_image zh-lightbox-thumb& width=&1240& data-original=&https://pic4.zhimg.com/v2-600fcb629fc43df2686150_r.jpg&&&/figure&&p&&i&前言:本文作者@我偏笑 ,是我们“AI产品经理大本营”成员,也是“AI研习小分队”的分享嘉宾之一(每4周分享一篇AI产品经理相关的学习心得总结);欢迎更多有兴趣“主动输出”的朋友们一起加入、共同进步:)&/i&&/p&&p&&br&&/p&&h2&&b&序言&/b&&/h2&&p&以一周前的这条微博作为开始——&/p&&figure&&img src=&https://pic4.zhimg.com/v2-29cd60aba605f_b.jpg& data-caption=&& data-rawwidth=&1018& data-rawheight=&1052& class=&origin_image zh-lightbox-thumb& width=&1018& data-original=&https://pic4.zhimg.com/v2-29cd60aba605f_r.jpg&&&/figure&&p&一周前我讲:相对的,自然语言解析技术已经逐渐不再成为各家广义智能助理产品的核心竞争力,&b&识别用户意图之后所提供的服务开始成为对话机器人差异化的核心。&/b&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-a8e7e4d509e8e37f1b9c8f2c3691cf56_b.jpg& data-caption=&& data-rawwidth=&1160& data-rawheight=&594& class=&origin_image zh-lightbox-thumb& width=&1160& data-original=&https://pic3.zhimg.com/v2-a8e7e4d509e8e37f1b9c8f2c3691cf56_r.jpg&&&/figure&&p&对于一个对话系统而言,我微博中所指的『后续服务』,就是上图中的 DST(对话状态维护)以及 Policy(动作候选排序),或者统一的称其为 DM(Dialogue Mannagement,对话管理)。也即,当接收到 NLU 模块的输出、其他场景及用户特征信息之后,判断系统应该跳转到什么状态,以及执行什么样的动作。&/p&&p&产品角度,DM 是对话机器人&b&封闭域多轮对话&/b&体验的核心,正是一次次 DST + Policy 形成了人机间的多轮对话体验。(注:我个人倾向于将“识别用户意图之后,为了获取必要信息,与用户进行的有目的的多轮对话”称为&b&封闭域多轮对话&/b&,区别于识别用户意图之前,为了利用上文信息,所采用的『上下文替换』、『主体补全』等技术,也即&b&开放域多轮对话&/b&。下文提到的『多轮对话』,均指&b&封闭域多轮对话&/b&。)&/p&&p&既然多轮对话在对话机器人类产品体验中扮演着如此重要的角色,我便开始思考:&b&一个架构完备的多轮对话体系应该是什么样的&/b&。也即,多轮对话系统中,至少需要包含哪些模块,才能为用户提供一种与人人对话相去不远的人机对话体验。&/p&&p&&br&&/p&&h2&一、&b&多轮对话&/b&&/h2&&p&&b&多轮对话定义&/b&&/p&&p&我有个习惯,就是在构造一个复杂系统之前,先从纷繁的细节之中跳出,尝试抽象的描述整个系统,及系统中的各个模块,也即为它们『下定义』。这能帮助你在多种可行方案中做出选择,也即帮你明确:&b&什么该做,什么不该做,什么该谁做&/b&。&/p&&p&&br&&/p&&p&基于以上思想,我尝试先给出几个我个人对于多轮对话体系定义问题的回答——&/p&&p&&b&基本定义:什么是多轮对话?&/b& (封闭域)多轮对话是一种,在人机对话中,初步明确用户意图之后,&b&获取必要信息&/b&以最终得到&b&明确用户指令&/b&的方式。多轮对话与&b&一件事情&/b&的处理相对应。&/p&&p&&b&补充说明1:所谓『必要信息』一定要通过与用户的对话获取吗?&/b& &b&不一定&/b&,即便是人与人之间的交流,对话本身所包含的信息也只占总传递信息量的小部分,更多信息来源于说话人的身份、当前的时间/地点等一系列场景信息。所以多轮对话的信息获取方式,也不应当只局限于用户所说的话。&/p&&p&&b&补充说明2:多轮对话一定在形式上表现为与用户的多次对话交互吗?&/b& &b&不一定&/b&,如果用户的话语中已经提供了充足的信息,或者其它来源的补充信息已足够将用户的初步意图转化为一条明确的用户指令,那就不会存在与用户的多次对话交互。&/p&&p&&br&&/p&&p&以上,是针对多轮对话整体定义问题的回答,每个模块的相关定义会在下文尝试给出。&/p&&p&&br&&/p&&h2&&b&二、槽&/b&&/h2&&p&&b&1、槽(slot)&/b&&/p&&p&&b&基本定义:什么是槽?&/b& 槽是多轮对话过程中将&b&初步用户意图&/b&转化为&b&明确用户指令&/b&所需要补全的&b&信息&/b&。一个槽与&b&一件事情&/b&的处理中所需要获取的&b&一种信息&/b&相对应。&/p&&p&&br&&/p&&p&&b&补充说明:多轮对话中的所有的槽位都需要被填充完整吗?&/b& &b&不一定&/b&,以如下对话为例——&/p&&p&&i&我:『去萧山机场多少钱』 &/i&&/p&&p&&i&出租车司机:『70』&/i&&/p&&p&&br&&/p&&p&对话中的『70』,应当被理解为70元人民币,而不必再去追问:『你说的是人民币、美元、日元还是港币?』。这类信息应当以默认值的形式存在,也即槽有&b&必填&/b&与&b&非必填&/b&之分,与上文所说的『信息未必需要通过与用户的对话获取』相对应。&/p&&p&&br&&/p&&p&&b&2、词槽与接口槽&/b&&/p&&p&上文反复的提到,&b&对话内容并不是获取信息的唯一方式&/b&,用户身份以及当前场景也包含着大量值得被利用的隐含信息。所以,与此相对的,一个完备的多轮对话体系应当同时具备从用户&b&话里&/b&以及&b&话外&/b&获取信息的能力。&/p&&p&我个人将“利用用户话中关键词填写的槽”叫做&b&词槽&/b&,“利用用户画像以及其他场景信息填写的槽”叫做&b&接口槽&/b&。&/p&&p&举个例子,我讲『我明天要坐火车去上海』。其中,分别将『明天』、『上海』填入名为『出发时间』、『目的地』的词槽中,而我当前所在的位置,则填入到了名为『出发地』的接口槽中。&/p&&p&&br&&/p&&p&&b&3、槽组与槽位&/b&&/p&&p&&u&&i&我个人将“利用用户话中关键词填写的槽”叫做&b&词槽&/b&,“利用用户画像以及其他场景信息填写的槽”叫做&b&接口槽&/b&。&/i&&/u&&/p&&p&&u&&i&举个例子,我讲『我后天要坐火车去上海』。其中,分别将『后天』、『上海』填入名为『出发时间』、『目的地』的词槽中,而我当前所在的位置,则填入到了名为『出发地』的接口槽中。&/i&&/u&&/p&&p&&br&&/p&&p&不知道上文错的如此离谱的结论,有没有引起你的注意:)&/p&&p&仔细读一遍上面举的例子,就会发现一个很严重的矛盾点:难道『出发地』这个槽不能由用户指定?用户完全可以说『我后天要坐火车从北京去上海』,那它是词槽还是接口槽?而且更进一步的,难道只能用『我当前所在的位置』来填入『出发地』这个槽中?比如,如果能读到我的日程表,发现我明天会去杭州,那是不是就应该用『杭州』而不是『我现在所在的位置』来填『出发地』这个槽了?&/p&&p&&br&&/p&&p&从中我们能发现什么呢?同一个槽,可能会存在多种&b&填槽方式&/b&。&/p&&p&我将可能包含多种填槽方式的&b&槽&/b&称为&b&槽组&/b&,槽组下面可能存在任意多个&b&槽位&/b&,也即任意多种填槽方式,而每个槽位又都对应着『词槽』与『接口槽』两种&b&槽位类型&/b&之一。&/p&&p&&br&&/p&&p&本质上来讲,槽组(也即上文中提到的『槽』),对应着&b&一种信息&/b&,而几乎不会有哪种信息的&b&获取方式只有一种&/b&。所以一个『槽』会同时对应多种填槽方式也就是自然而然的了。&/p&&p&依照上文,同一种信息会有多种获取方式,也即&b&同一个槽组会对应多种填槽方式(槽位)&/b&。那不同填槽方式之间必然会存在&b&优先级&/b&的概念。&/p&&p&就如同上文『订票』的例子,『出发地』槽包含三种填写方式,一种词槽、两种接口槽,自然的,词槽的优先级最高,『日程表中隐含的出发地』次之,『我当前所在的位置』再次。&/p&&p&&br&&/p&&p&如果将其与前文提到过的&b&必填/非必填&/b&结合起来,其填槽过程应当遵循以下步骤:&/p&&ul&&li&尝试填写词槽&/li&&li&若失败,尝试填写第一接口槽『用户日程表中隐含的出发地』&/li&&li&若失败,尝试填写第二接口槽『用户当前所在位置』&/li&&li&若失败,判断是否该槽必填&/li&&li&若必填,反问用户,重填词槽 *若非必填,则针对该槽组的填槽过程结束&/li&&/ul&&p&&br&&/p&&p&我们需要知道,&b&必填/非必填&/b&在逻辑上与&b&槽组&/b&而不是&b&槽位&/b&平级,只有&b&信息&/b&才会分为&b&必要/非必要&/b&,填槽方式不做这种区分。而且是否必填实际上与接口槽无关,只取决于是否需要与用户进行交互。&/p&&p&&br&&/p&&p&&b&4、澄清话术&/b&&/p&&p&与&b&槽组&/b&(也即与&b&一种信息&/b&)平级的概念还有一个,叫做&b&澄清话术&/b&。&/p&&p&澄清话术是&b&对话机器人希望获取某种信息时所使用的问句&/b&。比如『目的地』对应的澄清话术就是『您想从哪出发呢?』,『出发时间』对应的澄清话术就是『您想什么时间出发呢?』。&/p&&p&显而易见的,澄清话术与&b&槽组&/b&而不是&b&槽位&/b&平级。&/p&&p&&br&&/p&&p&&b&5、槽的填写&/b&&/p&&p&上文讲到,一个&b&槽组&/b&可能会有多个&b&槽位&/b&,槽位存在&b&词槽&/b&与&b&接口槽&/b&之分。&/p&&p&&br&&/p&&p&先说词槽。&/p&&p&词槽信息的抽取其实还是有些麻烦的,不过这属于解析的问题,不在本文探讨的范围内,这里只是简单提一下,举两个例子:&/p&&ul&&li&用户表达『不』,可能会有『不行』、『不是』、『算了』、『没有』等一系列说法。&/li&&li&用户话中有&b&多个&/b&符合条件的&b&关键词&/b&,我们整套多轮对话中有&b&多个槽&/b&,每个槽填一个还是多个值?哪个槽与哪个词对应?&/li&&/ul&&p&同义词典、规则、双向LSTM+CRF,各有各的方法。&/p&&p&&br&&/p&&p&再说接口槽。&/p&&p&接口槽与词槽相比,额外存在一个问题,就是:&b&接口返回的结果就是用户需要的结果吗?&/b&&/p&&p&这里需要分成两种情况来讨论,一种是:&b&我们明确知道接口的返回值可以直接填入槽位(不是槽/槽组)中,不需要向用户确认&/b&。&/p&&p&特别的,这里还要明确一点,即便是上述情况,也并不意味着当前槽/槽组只有该特定接口槽这一个槽位。有两种情况存在:一种是该槽组下只有这一个槽位,该接口的返回值直接填入槽位中,也相当于填入了槽/槽组中;或者该槽位下有多个槽位,接口槽的填入值并不一定最终作为槽/槽组的填入值。&/p&&p&&br&&/p&&p&另一种是:&b&我们知道接口的返回值只能作为参考,需要用户的协助才能进行槽位的填写&/b&。&/p&&p&这种情况下,需要&b&提供选项&/b&,让用户最终决定该槽位的填入值,与词槽一样,这里同样需要处理&b&单值/多值&/b&的问题。&b&单值/多值&/b&在逻辑上与&b&槽组&/b&平级。&/p&&p&&br&&/p&&p&此外,这里还要注意一个&b&否认选项&/b&的问题,比如我对阿里小蜜说,我忘记密码了,它会通过接口拿到我的当前账号,然后将其提供选项给我,问『你是忘记了哪个账号的密码?』,不过,除了我当前账号之外,还有一个选项也被提供出来了,就是『不,不是这个账号』。&/p&&p&&br&&/p&&p&这代表了一类问题的存在,&b&用户的意图并不一定包含在接口的全部返回值之中&/b&。所以就必然会有这样一种类似『不要/不是/不』的选项,我将其叫做&b&否认选项&/b&。&/p&&p&用户选择否认选项后,即意味着该槽位的填写失败了,需要填入一个&b&特殊值&/b&代表失败。用户选择否认选项的失败,可以与&b&接口调用失败&/b&等其它意外情况合并处理,因为这都意味着&b&该槽位填写失败&/b&,意味着&b&该种信息获取方式未能成功获取信息&/b&。&/p&&p&如果该槽组下只有这一个槽位,这个特殊的失败表征值就应当作为整个槽组的填入值,如果还有其他槽位值,则根据槽位间优先级最终确定槽组填入值。&/p&&p&&br&&/p&&p&&b&6、平级槽和依赖槽&/b&&/p&&p&上面说到底都在讲&b&一个槽组的填写&/b&,也即&b&一种信息的获取&/b&,但多轮对话的目的是将&b&初步用户意图&/b&转化为&b&明确用户指令&/b&,这其中所需要的信息通常都不只有一种。&/p&&p&&br&&/p&&p&谈完了&b&槽组与槽位&/b&之间的关系,接下来谈一下&b&槽组与槽组&/b&之间的关系,也即&b&信息与信息&/b&之间的关系。&/p&&p&&br&&/p&&p&为了便于理解,我先举两个例子来代表两种多轮对话中所包含的极端情况。&/p&&p&第一种:订车票,你需要知道用户出发的时间、地点、目的地、座位种类。这四个槽组之间,&b&没有任何依赖关系&/b&。换言之,你只需要确定好这四个槽组中&b&必填槽组&/b&之间的&b&澄清顺序&/b&,接收到用户问句后,对还未填充完成的&b&必填槽组&/b&依次进行澄清即可。我将这四个槽组之间的关系称为&b&平级槽关系&/b&。&/p&&p&另一种,不知道读者玩没玩过橙光,或者其它多结局的剧情类游戏。它们的特点是什么呢?&b&每一个选择都会有影响到后续剧情发展&/b&也即 &b&每个槽组的填写结果会影响其它槽组的填写&/b&。换言之,部分槽组&b&依赖&/b&前序槽组的填写结果,在其依赖的前序槽组填写完成之前,该槽组都无法进行填写。我将槽组间的这种关系称为&b&依赖槽关系&/b&。&/p&&p&这种情况下,整个多轮对话过程就形成了一棵树,极端情况下,这棵树是&b&满&/b&的。树上的&b&每个节点&/b&放置着一个会对后续对话走向产生影响的&b&槽组&/b&。&/p&&p&&br&&/p&&p&槽关系的选择要根据实际业务场景来确定。&/p&&p&如果&b&错将平级槽采用依赖槽关系来管理&/b&,就会出现&b&信息的丢失&/b&。比如 A、B、C,三者本为平级槽关系,但却将其用 A-&B-&C 的依赖槽关系来管理,那即便用户问句中包含填写 B、C 槽组的信息,也可能会由于 A 槽组的未填写而造成 B、C 槽组的填写失败。&/p&&p&如果&b&错将依赖槽采用平级槽的关系来管理&/b&,就会出现&b&信息的冗余&/b&,比如 A、B、C三者的关系为 A、A1-&B、A2-&C,那即便用户将值 A1 填入槽组 A 后,却仍然需要向用户询问本不需要的 C 槽组的填写信息。&/p&&p&上述两种情况属于&b&全平级槽关系&/b&与&b&全依赖槽关系&/b&的特殊情况,在实际的业务场景中,这两种关系会是同时存在的,不同槽组间,既有平级槽关系,又有依赖槽关系。&/p&&p&&br&&/p&&p&实际业务场景中,完整的多轮对话过程通常会以&b&树&/b&的形式存在,每个节点存在&b&一个或多个&/b&槽组,用于获取一种或多种信息,&b&节点间的槽组为依赖关系,节点内的槽组为平级关系&/b&。&/p&&p&上文将多轮对话定义为&b&一件事情&/b&的处理,槽组/槽定义为&b&一种信息&/b&的获取,槽位定义为信息的&b&一种获取方式&/b&。这里我倾向于将多轮对话&b&树结构&/b&中的一个节点定义为处理事情的&b&一个步骤}

我要回帖

更多关于 橙光游戏大全 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信