使用S计划Model S训练会不会太枯燥？

点击联系发帖人 时间：2022-06-02 15:20

健身如何突破瓶颈期

作者：@，路遥@，奇异果@
声明：版权所有，转载请联系平台与作者并注明出处

本讲内容的深度总结教程可以在查看。视频和课件等资料的获取方式见文末。

基于验证集 (dev) 调整超参数
每个过滤器大小有 100 个特征映射

训练过程中，不断检查验证集的性能，并选择最高精度的权重进行最终评估

不同的参数设置下的实验结果

但几个比较系统没有使用 Dropout，并可能从它获得相同的收益

仍然被视为一个简单架构的显著结果
与我们在前几节课中描述的窗口和 RNN 架构的不同之处：池化、许多过滤器和 Dropout
这些想法中有的可以被用在 RNNs 中

词窗分类 / Window Model：对于不需要广泛上下文的问题 (即适用于 local 问题)，适合单字分类。例如 POS、NER

卷积神经网络 / CNN：适合分类，较短的短语需要零填充，难以解释，易于在 gpu 上并行化

循环神经网络 / RNN：从左到右的认知更加具有可信度，不适合分类 (如果只使用最后一种状态)，比 CNNs 慢得多，适合序列标记和分类以及语言模型，结合注意力机制时非常棒

RNN对序列标记和分类之类的事情有很好的效果，以及语言模型预测下一个单词，并且结合注意力机制会取得很好的效果，但是对于某个句子的整体解释，CNN做的是更好的

我们在 LSTMs 和 GRUs 中看到的门/跳接是一个普遍的概念，现在在很多地方都使用这个概念
你还可以使用 **纵向** 的门
实际上，关键的概念——用快捷连接对候选更新求和——是非常深的网络工作所需要的

Note：添加它们时，请将 \(x\) 填充成conv一样的维度，再求和

通过将激活量缩放为零均值和单位方差，对一个 mini-batch 的卷积输出进行变换
但在每组 mini-batch 都会更新，所以波动的影响不大

使用 BatchNorm 使模型对参数初始化的敏感程度下降，因为输出是自动重新标度的
- 也会让学习率的调优更简单，模型的训练会更加稳定

1x1的卷积有作用吗？是的。

1x1 卷积提供了一个跨通道的全连接的线性层
它可以用于从多个通道映射到更少的通道
1x1 卷积添加了额外的神经网络层，附加的参数很少
- 与全连接 (FC) 层不同——全连接(FC)层添加了大量的参数

最早成功的神经机器翻译之一
使用CNN进行编码，使用RNN进行解码

对字符进行卷积以生成单词嵌入
固定窗口的词嵌入被用于 POS 标签

4.深度CNN用于文本分类

4.1 深度卷积网络用于文本分类

起始点：序列模型 (LSTMs) 在 NLP 中占主导地位；还有CNNs、注意力等等，但是所有的模型基本上都不是很深入——不像计算机视觉中的深度模型
当我们为 NLP 构建一个类似视觉的系统时会发生什么

整个系统和视觉神经网络模型中的 VGG 和 ResNet 结构有点像

不太像一个典型的深度学习 NLP 系统

结果是固定大小，因为文本被截断或者填充成统一长度了

每个阶段都有局部池化操作，特征数量 double

每个卷积块是两个卷积层，每个卷积层后面是 BatchNorm 和一个 ReLU
pad 以保持 (或在局部池化时减半) 维数

以上数据均为错误率，所以越低越好
深度网络会取得更好的结果，残差层取得很好的结果，但是深度再深时并未取得效果提升
ConvNets 可以帮助我们建立很好的文本分类系统

RNNs 是深度 NLP 的一个非常标准的构建块
但它们的并行性很差，因此速度很慢
想法：取 RNNs 和 CNNs 中最好且可并行的部分

努力把两个模型家族的优点结合起来
时间上并行的卷积，卷积计算候选，遗忘门和输出门

跨通道并行性的逐元素的门控伪递归是在池化层中完成的

对于字符级的 LMs 并不像 LSTMs 那样有效
- 建模时遇到的更长的依赖关系问题

通常需要更深入的网络来获得与 LSTM 一样好的性能
- 当它们更深入时，速度仍然更快
- 有效地使用深度作为真正递归的替代

我们希望能够并行加速，但 RNN 是串行的

尽管 GRUs 和 LSTMs，RNNs 通过注意力机制可以捕捉到长时依赖，但随着序列增长，需要计算的路径也在增长

如果注意力机制本身可以让我们关注任何位置的信息，可能我们不需要 RNN？

可以点击查看视频的【双语字幕】版本

斯坦福 CS224n 课程带学详解

}

2019 年第 67 篇文章，总第 91 篇文章本文大约 6500 字，建议收藏阅读！

}

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

预训练模型用起来非常容易，但是你是否忽略了可能影响模型性能的细节呢?

请长按或扫描二维码关注本公众号

喜欢的话，请给我个好看吧！

}

淘宝游戏网

使用S计划Model S训练会不会太枯燥？

4.深度CNN用于文本分类

4.1 深度卷积网络用于文本分类

斯坦福 CS224n 课程带学详解

我要回帖

更多关于健身如何突破瓶颈期的文章

更多推荐

淘宝游戏网

使用S计划Model S训练会不会太枯燥？

4.深度CNN用于文本分类

4.1 深度卷积网络用于文本分类

斯坦福 CS224n 课程带学详解

我要回帖

更多关于 健身如何突破瓶颈期 的文章

更多推荐

更多关于健身如何突破瓶颈期的文章