使用S计划Model S训练会不会太枯燥?

作者:@,路遥@,奇异果@
声明:版权所有,转载请联系平台与作者并注明出处



本讲内容的深度总结教程可以在 查看。视频和课件等资料的获取方式见文末


    • 基于验证集 (dev) 调整超参数
    • 每个过滤器大小有 100 个特征映射
  • 训练过程中,不断检查验证集的性能,并选择最高精度的权重进行最终评估
  • 不同的参数设置下的实验结果
  • 但几个比较系统没有使用 Dropout,并可能从它获得相同的收益
  • 仍然被视为一个简单架构的显著结果
  • 与我们在前几节课中描述的窗口和 RNN 架构的不同之处:池化、许多过滤器和 Dropout
  • 这些想法中有的可以被用在 RNNs 中
  • 词窗分类 / Window Model:对于不需要广泛上下文的问题 (即适用于 local 问题),适合单字分类。例如 POS、NER
  • 卷积神经网络 / CNN:适合分类,较短的短语需要零填充,难以解释,易于在 gpu 上并行化
  • 循环神经网络 / RNN:从左到右的认知更加具有可信度,不适合分类 (如果只使用最后一种状态),比 CNNs 慢得多,适合序列标记和分类以及语言模型,结合注意力机制时非常棒
  • RNN对序列标记和分类之类的事情有很好的效果,以及语言模型预测下一个单词,并且结合注意力机制会取得很好的效果,但是对于某个句子的整体解释,CNN做的是更好的
  • 我们在 LSTMs 和 GRUs 中看到的 门/跳接 是一个普遍的概念,现在在很多地方都使用这个概念
  • 你还可以使用 **纵向** 的门
  • 实际上,关键的概念——用快捷连接对候选更新求和——是非常深的网络工作所需要的
  • Note:添加它们时,请将 \(x\) 填充成conv一样的维度,再求和
  • 通过将激活量缩放为零均值和单位方差,对一个 mini-batch 的卷积输出进行变换

  • 但在每组 mini-batch 都会更新,所以波动的影响不大
  • 使用 BatchNorm 使模型对参数初始化的敏感程度下降,因为输出是自动重新标度的

    • 也会让学习率的调优更简单,模型的训练会更加稳定
  • 1x1的卷积有作用吗是的
  • 1x1 卷积提供了一个跨通道的全连接的线性层
  • 它可以用于从多个通道映射到更少的通道
  • 1x1 卷积添加了额外的神经网络层,附加的参数很少

    • 与全连接 (FC) 层不同——全连接(FC)层添加了大量的参数
  • 最早成功的神经机器翻译之一
  • 使用CNN进行编码,使用RNN进行解码
  • 对字符进行卷积以生成单词嵌入
  • 固定窗口的词嵌入被用于 POS 标签

4.深度CNN用于文本分类

4.1 深度卷积网络用于文本分类

  • 起始点:序列模型 (LSTMs) 在 NLP 中占主导地位;还有CNNs、注意力等等,但是所有的模型基本上都不是很深入——不像计算机视觉中的深度模型
  • 当我们为 NLP 构建一个类似视觉的系统时会发生什么
  • 整个系统和视觉神经网络模型中的 VGG 和 ResNet 结构有点像
  • 不太像一个典型的深度学习 NLP 系统
  • 结果是固定大小,因为文本被截断或者填充成统一长度了
  • 每个阶段都有局部池化操作,特征数量 double
  • 每个卷积块是两个卷积层,每个卷积层后面是 BatchNorm 和一个 ReLU
  • pad 以保持 (或在局部池化时减半) 维数
  • 以上数据均为错误率,所以越低越好
  • 深度网络会取得更好的结果,残差层取得很好的结果,但是深度再深时并未取得效果提升
  • ConvNets 可以帮助我们建立很好的文本分类系统
  • RNNs 是深度 NLP 的一个非常标准的构建块
  • 但它们的并行性很差,因此速度很慢
  • 想法:取 RNNs 和 CNNs 中最好且可并行的部分
  • 努力把两个模型家族的优点结合起来
  • 时间上并行的卷积,卷积计算候选,遗忘门和输出门
  • 跨通道并行性的逐元素的门控伪递归是在池化层中完成的
  • 对于字符级的 LMs 并不像 LSTMs 那样有效

    • 建模时遇到的更长的依赖关系问题
  • 通常需要更深入的网络来获得与 LSTM 一样好的性能

    • 当它们更深入时,速度仍然更快
    • 有效地使用深度作为真正递归的替代
  • 我们希望能够并行加速,但 RNN 是串行的
  • 尽管 GRUs 和 LSTMs,RNNs 通过注意力机制可以捕捉到长时依赖,但随着序列增长,需要计算的路径也在增长
  • 如果注意力机制本身可以让我们关注任何位置的信息,可能我们不需要 RNN?

可以点击 查看视频的【双语字幕】版本

斯坦福 CS224n 课程带学详解

}

2019 年第 67 篇文章,总第 91 篇文章 本文大约 6500 字,建议收藏阅读!

}

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


预训练模型用起来非常容易,但是你是否忽略了可能影响模型性能的细节呢?

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

}

我要回帖

更多关于 健身如何突破瓶颈期 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信