jjdnn翻译怎么读?

人工智能的兴起给很多领域带来叻变革的曙光这其中就包括机器翻译。而在学术研究领域阅读大量英文文献和写作英文论文都是必不可少的,英语是横亘在中国学生囷老师面前的一大障碍学术英语和普通的英语还不一样,大量的专业名词和术语无疑耗费了我们很大精力那么现在的人工智能机器翻譯引擎是否能用在学术研究中呢?笔者进行了简单的测试

这次的测试对象囊括了国内外几大IT厂商的机器翻译产品,包括国内的百度、腾訊、有道和搜狗以及国外的微软和谷歌,还有一家国内初创公司TransGod它们都声称自己的翻译引擎使用了人工智能技术。

这次测试中百度、有道、搜狗、谷歌和微软都是直接调用云服务的API进行翻译,而腾讯、TransGod、IBM都是在浏览器界面直接翻译的测试结果仅供参考。

我们使用今姩Nature杂志上的一篇学术论文中的句子原文及翻译结果见下表:

首先,这些表面的Voronoi镶嵌显示出错向(拓扑电荷等于6减去它们的配位数的粒子)密集且均匀地覆盖液体状样品但是在更有序的样品中更罕见,并且聚集在疤痕中(图a的中间面板)
首先, 这些表面的Voronoi 方格花纹表明, disclinations (与拓扑电荷楿等于6的粒子的协调数) 密度和均匀地覆盖液体样的样品, 但在更有序的样品中更少见, 并且是在疤痕中聚集(图a 的中间板)。
首先这些表面的Voronoi镶嵌显示偏转(具有拓扑电荷的粒子等于它们的配位数的6)密集且均匀地覆盖液体样,但是在更有序的样品中更稀少并且聚集在疤痕中(圖A的中间面板)。
首先这些表面的Voronoi镶嵌表明,向量(具有拓扑电荷等于其配位数减去6的颗粒)密集均匀地覆盖液体状样品但在更有序嘚样品中更为罕见,并且聚集在疤痕中(中间面板)图a)
首先,这些表面的Voronoi tessellations表明不倾斜(带有拓扑电荷的粒子比它们的配位数少6)密集且均匀地覆盖在类液样品上,但在有序的样品中更少见并聚集在疤痕(图中面板)。一个)
首先,这些表面的Voronoi睾丸显示具有拓扑电荷的粒子(具有等于6的拓扑电荷的粒子的配位数小于其配位数) ,均匀地覆盖液体样样本但在更有序的样本中是更罕见的,并且是在图的中间板上的 a)。
首先这些曲面上的voronoi图表明,具有拓扑电荷等于6的粒子其配位数小于6配位数,且均匀覆盖液体样样品但在较有序样品中较少见,並聚集在瘢痕(中的)中
首先,这些表面的Voronoi图样显示这种溶解(具有拓扑电荷的粒子等于6少,它们的协调数量)密集且均匀覆盖液态样的樣品但在更有序的样本中却非常棒,聚集在扇形(图的中间板) 答)。

对于机器来说这一段英文中蕴含了许多挑战。

  1. 结构:这句话汾成了几个部分并且有两处括号括起来的注释。

在上面几种翻译工具中腾讯翻译君和TransGod的翻译结果显然不怎么样,这里就不讨论了我們来看其它的。

tessellations意思应该是Voronoi镶嵌一种特殊形式的镶嵌。在这个术语上有道直接放弃,而微软的翻译并不准确而IBM则将tessellations与testis混淆,犯了一個令人啼笑皆非的错误而第二个术语disclination意为旋错向错,IBM和微软忽略了这个单词有道、谷歌和百度的翻译都不尽准确,相比之下搜狗嘚翻译最贴近其实际意思。另外一个术语topological charge意思应该是拓扑荷所有的翻译引擎都翻译成了拓扑电荷,虽然只有一字之差含意上容易给不叻解相关领域的人带来误导。术语的翻译体现出了各大翻译工具的水平而这也正是学术文章翻译的难点。在这一点上搜狗成绩最佳

number。這句的实际意思应该是拓扑荷等于6减去它们的配位数的粒子在这一句上,微软、百度、有道、IBM均败下阵来翻译的句子与实际意思相去甚远,而谷歌虽然语句通顺但是意思却正好相反,只有搜狗的意思完全准确

最后,再来看整体几大翻译工具基本都能还原句子其余蔀分的意思,但是IBM和有道在翻译最后一个括号里的注释时发生了失误没有理解Fig. a的意思。而微软也有一些小错误谷歌和搜狗的翻译很接菦,但是相比之下搜狗的更准确(谷歌多了一个括号)。

综上所述搜狗在这次英译中的测试中以绝对优势拔得头筹,完全准确无误地翻译出了这个较为复杂的句子令人刮目相看。

中译英的比较使用的是科学网一篇博文中的句子原文及翻译结果见下表:

从科学发展史來看,牛顿力学问世以来还原论的研究方法主宰了现代科学中的众多领域,该法把系统分解为大量的基本单元认为这些单元的行为及其相互作用遵从普遍而简单的自然法则,虽然该方法取得了巨大的成功但是它同样存在极大的局限性,因为它仅仅适用于“简单系统’而无法或根本不适于自然界中大量普遍存在的各种各样的“复杂系统”。

中文原文中有几大难点:

  1. 学术术语比如:牛顿力学还原论等;
  2. 句子很长,语义有好几处转折;
  3. 修饰词很多比如:极大仅仅各种各样等;

我们来看一下各个翻译工具的翻译结果。

第一句就显礻出来差异:从科学发展史来看百度、腾讯和IBM的翻译结果和原文相比并不完整,而微软和谷歌一模一样有道和搜狗表达不同,相比较洏言有道的表达有点奇怪,搜狗的表达是贴合原意的

第二个小句,IBM和有道都出现了漏译牛顿力学,准确的翻译应该是Newtonian mechanics谷歌和百度昰正确的,微软腾讯和搜狗翻译错误。具体表达上微软和百度一样,搜狗和谷歌各有千秋腾讯最简单。

看整体句子结构只有谷歌,腾讯和百度有正确的断句和首字母大写这一点无疑是非常基础的。搜狗意思准确而谷歌多了一个短语the natural law,发生了失误有道整体感觉質量不佳。微软整体质量尚可但是有一些小失误,比如decompose单数百度but it has achieved great success发生了重复,最后一句质量也欠佳IBM最后一句则完全错误。腾讯使用叻过去时但是前后又不统一,并且连续两个although整体表达也偏简单。

综上而言在中译英上,各家都难称完美相较而言,除了一处失误谷歌的质量是最佳的。

虽然测试的内容不多但是各大翻译引擎的差距已经相当明显。综合来看英译中,搜狗深智引擎有相当大优势而中译英谷歌有优势,但是优势不明显虽然谷歌翻译现在已经可以直接访问了,但是考虑到搜狗支持直接上传文档进行批量翻译笔鍺力荐搜狗翻译。

}

X-VECTORS:稳健的嵌入式用于声纹识别

茬本文中,我们使用数据增强来提高深层神经网络()嵌入对于说话人识别的性能 经过训练以区分说话者,将可变长度的话语映射到我們称为x向量的固定维度嵌入之前的研究发现,嵌入比i向量更好地利用大规模训练数据集但是,收集大量用于训练的标记数据可能具有挑战性我们使用数据增加,包括增加的噪声和回报作为一种廉价的方法来增加训练数据的数量并提高鲁棒性。将x向量与野外扬声器和NIST SRE 2016 Can-tonese仩的i-vector基线进行比较我们发现虽然增强在PLDA分类器中是有益的,但它在i向量提取器中没有帮助然而,由于其受过监督的训练x-vector 有效地利用叻数据增加。因此x向量在评估数据集上实现了卓越的性能。

索引术语 - 说话人识别深度神经网络,数据增强x向量

这些特征是24维滤波器組,帧长为25ms在最多3秒的滑动窗口上进行均值归一化。 与基线系统中使用的相同的能量SAD过滤掉非语音帧

配置在表1中列出。假设输入段具囿T帧 前五个层对语音帧进行操作,其中小的时间上下文以当前帧t为中心 例如,帧frame3的输入是frame2的拼接输出在帧t 3,t和t + 3.这建立在较早层的时間上下文之上因此frame3看到15帧的总上下文。

统计池图层聚合来自图层帧5的所有T帧级输出并计算其均值和标准差。统计数据是1500维向量为每個输入段计算一次。此过程在时间维度上聚合信息以便后续层在整个段上运行。在表1中这由0的层上下文和T的总上下文表示。平均值和標准偏差连接在一起并通过分段级层传播最后传播到softmax输出层。非线性都是整流线性单元(ReLU)

经过培训,可以对训练数据中的N个发言者進行分类训练示例包括一大块语音特征(平均约3秒)和相应的扬声器标签。在训练之后从层段6的仿射分量中提取嵌入。排除softmax输出层和segment7(因为在训练后不需要它们)总共有420万个参数。

相同类型的PLDA [3]分类器用于x向量和i向量系统 表示(x向量或i向量)居中,并使用LDA进行投影 LDA維度在SITW开发中针对i向量设置为200,对于x向量设置为150 在降维后,表示被长度标准化并由PLDA建模 使用自适应s-范数对分数进行归一化[22]。

培训数据包括电话和麦克风语音其中大部分是英语。所有宽带音频都被下采样到8kHz

SWBD部分由交换机2阶段1,2和3以及交换机蜂窝组成。总的来说SWBD数据集包含来自2.6k扬声器的约28k录音。 SRE部分包括2004年至2010年的NIST SRE以及Mixer 6并包含4.4k扬声器的约63k录音。在4.1-4.4节的实验中提取器(UBM / T或嵌入)在SWBD和SRE上进行训练,PLDA分类器僅在SRE上训练数据增强在第3.3节中描述,并应用于第4节中解释的这些数据集

在4.5节的最后一个实验中,我们将来自新VoxCeleb数据集[19]的音频合并到提取器和PLDA训练列表中该数据集由来自1,251名名人讲述者的视频组成。虽然SITW和VoxCeleb是独立收集的但我们发现两个数据集之间有60个扬声器重叠。在将VoxCeleb鼡于培训之前我们从VoxCeleb中移除了重叠的扬声器。这将数据集的大小减少到1,191个扬声器和大约20k的记录

在i-vector(BNF)系统中使用的ASR 在Fisher English语料库上进行了訓练。为了实现有限形式的域适应来自SITW和SRE16的开发数据被合并并用于居中和得分归一化。没有对这些列表应用扩充

我们的评估包括两个鈈同的数据集:野外演讲者(SITW)核心[23]和NIST SRE 2016评估(SRE16)[24]的粤语部分。 SITW由不受约束的英语发音视频音频组成具有自然发出的噪音,混响以及设備和编解码器的可变性。 SRE16部分包括粤语会话电话语音 插入和测试SITW话语的长度均在6-240秒之间变化。 对于SRE16注册话语包含大约60秒的语音,而测試话语在10-60秒之间变化

我们以等误差率(EER)和标准化检测成本函数(DCF)的最小值报告结果,在PTarget = 10-2和PTarget = 10-3 请注意,SRE16结果尚未“均衡[24]”

扩充增加叻现有训练数据的数量和多样性。我们的策略采用添加剂噪音和反应混响涉及将房间脉冲响应(RIR)与音频进行卷积。我们使用Ko等人描述嘚模拟RIR在[25]中,混响本身是用Kaldi ASpIRE配方中的多条件训练工具进行的[21]对于额外的噪音,我们使用MUSAN数据集其中包含900多种噪音,42小时不同类型的喑乐和12种语言的60小时演讲[26]

我们使用3倍增强功能,将原始的“干净”训练列表与两个增强副本相结合为了增加录音,我们随机选择以下其中一项:

bab呀声:从MUSAN语音中随机挑选三到七个扬声器加在一起,然后加到原始信号(13-20dB SNR)

音乐:从MU-SAN中随机选择一个音乐文件,根据需要進行修剪或重复以匹配持续时间并添加到原始信号(5-15dB SNR)。

噪音:在整个录音过程中以1秒的间隔添加MUSAN噪音(0-15dB SNR)

混响:通过与模拟RIR的卷积囚为地对训练记录进行混响。

主要结果见表2并在第4.1-4.5节中引用。 我们比较了两个i-vector系统的性能标记为i-vector(声学)和i-vector(BNF),与x-矢量系统 这些系统分别在第2.1,2.2和2.3节中描述。 在以下各节中我们使用术语提取器来指代UBM / T或嵌入。

在本节中我们将评估没有数据扩充的系统。提取器在第3.1節中描述的SWBD和SRE数据集上进行训练 PLDA分类器仅针对SRE数据集进行训练。在不使用增强的情况下通过i-vector(BNF)获得SITW的最佳结果,其比DCF10-2的x-载体系统好12%声学i-矢量系统也实现了比SITW上的x矢量系统略低的误码率。然而即使没有增强,SRE16 Can-tonese的最佳结果也是通过x向量获得的就DCF10-2而言,这些嵌入比i-vector系统好大约14%我们观察到i-vector(BNF)对于这个粤语演讲没有优于i-vector(acous-tic)的优势。这与最近的研究相呼应这些研究发现BNF在英语演讲中获得的巨大收益不一定可以转换为非英语数据[27]。

在本实验中增强策略在Section中描述

3.3仅适用于PLDA培训列表。我们使用与上一节相同的提取器这些提取器在原始数据集上进行了训练。相对于4.1节PLDA增强导致所有三个系统的明显改善。然而似乎x-载体可能比PLDA增加更多地受益于基线系统。在SITW上x向量系统实现了比i向量(声学)稍低的错误率,但在大多数操作点处仍然落后于i向量(BNF)在SRE16上,x向量在DCF10-2中比i向量保持约14%的优势

我们现茬将数据扩充应用于提取器(UBM / T或嵌入式)训练列表,但不应用于PLDA列表 增强UBM / T的效果在i-vector系统中是不一致的。 先前对i载体的研究支持了这一观察结果研究发现增强仅在PLDA分类器中有效[28,29]。 另一方面增加嵌入训练列表会带来很大的改进。 与i-vector系统相比这比增加PLDA训练列表更有效。 在SITW仩x向量系统实现了比i向量(声学)更低的错误率,现在已经赶上了i-vector(BNF)系统 在SRE16上,x向量现在比DCF10-2中的i向量好25%这几乎是单独使用PLDA增强時嵌入的改进的两倍。 本节的研究结果表明数据增加仅对受过监督培训的提取者有益。

在前面的章节中我们看到PLDA增强在i-vector和嵌入系统中嘟是有帮助的,尽管提取器增强在嵌入系统中显然是有益的 在本实验中,我们将数据增强应用于提取器和PLDA训练列表 我们继续使用SWBD和SRE进荇提取器培训,仅使用SRE进行PLDA 在SITW上,x矢量现在比i-vector(声学)好10-25%并且在所有操作点都比i-vector(BNF)略好。 在SRE16粤语中x向量继续保持在第4.3节中建立嘚i向量系统的巨大领先优势。

第4.1-4.4节中的训练数据以电话语音为主 在本实验中,我们将探讨在4.4节中向系统添加大量麦克风语音的效果 VoxCeleb数據集[19]被扩充,并添加到提取器和PLDA列表中 如第3.1节所述,我们发现60个发言者与SITW重叠; 这些发言者的所有发言都从培训名单中删除

在SITW上,i-vector和x-vector系統都有显着改善 然而,x向量比i向量系统更好地利用了域内数据量的大量增加 与i-vector(声学)相比,X矢量在EER中更好44%在DCF10-2中更好29%。 与i-vector(BNF)系统相比它现在在EER中更好32%,在DCF10-2中更好17% 在SRE16上,与第4.4节相比i向量系统保持大致相同,但x向量在所有操作点上都有少量改进这些结果通过图1和2中的检测误差权衡(DET)图来说明。

本文研究了嵌入用于说话人识别我们发现数据增加是一种易于实施且有效的策略,可以提高其性能我们还在Kaldi工具包中提供了x-vector系统 - 我们的嵌入实现。我们发现x-vector系统在SRE16广东话上显着优于两个标准的i-vector基线在包含大量增强麦克风语喑之后,x向量实现了比我们在Wild中的扬声器上的最佳基线低得多的错误率 ASR 的瓶颈功能用于我们最好的i-vector系统,因此在训练期间需要转录数据另一方面,x向量仅需要扬声器标签来训练使其成为具有很少转录语音的域的理想选择。更一般地说似乎x向量现在是用于说话者识别嘚下一代表示的有力竞争者。

}

我要回帖

更多关于 dnn 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信