作者:@,路遥@,奇异果@
声明:版权所有,转载请联系平台与作者并注明出处
本讲内容的深度总结教程可以在 查看。视频和课件等资料的获取方式见文末。
- 基于验证集 (dev) 调整超参数
- 每个过滤器大小有 100 个特征映射
- 训练过程中,不断检查验证集的性能,并选择最高精度的权重进行最终评估
- 不同的参数设置下的实验结果
- 但几个比较系统没有使用 Dropout,并可能从它获得相同的收益
- 仍然被视为一个简单架构的显著结果
- 与我们在前几节课中描述的窗口和 RNN 架构的不同之处:池化、许多过滤器和 Dropout
- 这些想法中有的可以被用在 RNNs 中
- 词窗分类 / Window Model:对于不需要广泛上下文的问题 (即适用于 local 问题),适合单字分类。例如 POS、NER
- 卷积神经网络 / CNN:适合分类,较短的短语需要零填充,难以解释,易于在 gpu 上并行化
- 循环神经网络 / RNN:从左到右的认知更加具有可信度,不适合分类 (如果只使用最后一种状态),比 CNNs 慢得多,适合序列标记和分类以及语言模型,结合注意力机制时非常棒
- RNN对序列标记和分类之类的事情有很好的效果,以及语言模型预测下一个单词,并且结合注意力机制会取得很好的效果,但是对于某个句子的整体解释,CNN做的是更好的
- 我们在 LSTMs 和 GRUs 中看到的 门/跳接 是一个普遍的概念,现在在很多地方都使用这个概念
- 你还可以使用
**纵向**
的门 - 实际上,关键的概念——用快捷连接对候选更新求和——是非常深的网络工作所需要的
- Note:添加它们时,请将 \(x\) 填充成conv一样的维度,再求和
-
通过将激活量缩放为零均值和单位方差,对一个 mini-batch 的卷积输出进行变换
- 但在每组 mini-batch 都会更新,所以波动的影响不大
-
使用 BatchNorm 使模型对参数初始化的敏感程度下降,因为输出是自动重新标度的
- 也会让学习率的调优更简单,模型的训练会更加稳定
- 1x1的卷积有作用吗?是的。
- 1x1 卷积提供了一个跨通道的全连接的线性层
- 它可以用于从多个通道映射到更少的通道
-
1x1 卷积添加了额外的神经网络层,附加的参数很少
- 与全连接 (FC) 层不同——全连接(FC)层添加了大量的参数
- 最早成功的神经机器翻译之一
- 使用CNN进行编码,使用RNN进行解码
- 对字符进行卷积以生成单词嵌入
- 固定窗口的词嵌入被用于 POS 标签
4.深度CNN用于文本分类
4.1 深度卷积网络用于文本分类
- 起始点:序列模型 (LSTMs) 在 NLP 中占主导地位;还有CNNs、注意力等等,但是所有的模型基本上都不是很深入——不像计算机视觉中的深度模型
- 当我们为 NLP 构建一个类似视觉的系统时会发生什么
- 整个系统和视觉神经网络模型中的 VGG 和 ResNet 结构有点像
- 不太像一个典型的深度学习 NLP 系统
- 结果是固定大小,因为文本被截断或者填充成统一长度了
- 每个阶段都有局部池化操作,特征数量 double
- 每个卷积块是两个卷积层,每个卷积层后面是 BatchNorm 和一个 ReLU
- pad 以保持 (或在局部池化时减半) 维数
- 以上数据均为错误率,所以越低越好
- 深度网络会取得更好的结果,残差层取得很好的结果,但是深度再深时并未取得效果提升
- ConvNets 可以帮助我们建立很好的文本分类系统
- RNNs 是深度 NLP 的一个非常标准的构建块
- 但它们的并行性很差,因此速度很慢
- 想法:取 RNNs 和 CNNs 中最好且可并行的部分
- 努力把两个模型家族的优点结合起来
- 时间上并行的卷积,卷积计算候选,遗忘门和输出门
- 跨通道并行性的逐元素的门控伪递归是在池化层中完成的
-
对于字符级的 LMs 并不像 LSTMs 那样有效
- 建模时遇到的更长的依赖关系问题
-
通常需要更深入的网络来获得与 LSTM 一样好的性能
- 当它们更深入时,速度仍然更快
- 有效地使用深度作为真正递归的替代
- 我们希望能够并行加速,但 RNN 是串行的
- 尽管 GRUs 和 LSTMs,RNNs 通过注意力机制可以捕捉到长时依赖,但随着序列增长,需要计算的路径也在增长
- 如果注意力机制本身可以让我们关注任何位置的信息,可能我们不需要 RNN?
可以点击 查看视频的【双语字幕】版本