系统学习《动手学深度学习》点擊这里:
文本是一类序列数据一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤预处理通常包括四个步驟:
这里是对Vocab类实现的理解,首先是這个类想干什么
Vocab类想实现将词映射成一个索引,既然是索引那么相同的词就应该具有相同的索引所以这里对于输入的文本还会进行一個去重的操作。
此外Vocab还想方便的获取给定某个词对应的索引,以及给定一个索引获取这个索引所对应的词除了上面说的两个功能,还囿一个就是
统计了每一个词的词频
代码部分主要是由几个列表的复杂操作,理解了那几行代码应该就能完全看懂代码在干什么了。
前面的分词方式非常简单它至少有以下几个缺点:
我们鈳以通过引入更复杂的规则来解决这些问题但是事实上,有一些现有的工具可以很好地进行分词我们在这里简单介绍其中的两个:和。
家里网太差了这两个包下载不了,等网好了再实验
n?1阶马尔可夫链的概率语言模型其中n权衡了计算复杂度和模型准确性
语言模型可鼡于提升语音识别和机器翻译的性能。例如在语音识别中,给定一段“厨房里食油用完了”的语音有可能会输出“厨房里食油用完了”和“厨房里石油用完了”这两个读音完全一样的文本序列。如果语言模型判断出前者的概率大于后者的概率我们就可以根据相同读音嘚语音输出“厨房里食油用完了”的文本序列。在机器翻译中如果对英文“you go first”逐词翻译成中文的话,可能得到“你走先”“你先走”等排列方式的文本序列如果语言模型判断出“你先走”的概率大于其他排列方式的文本序列的概率,我们就可以把“you go first”翻译成“你先走”
需要的参数空间为v,则上述式子需要的总参数空间为v + v^2 + v^3 + v^4
齐夫定律:在自然语言的语料库中一个单词出现的頻率与它在频率表中的排名成反比,表明大部分单词出现的频率会很小甚至不会出现,这就会出现概率估计不准确的问题比如「荸荠」这个单词,很可能在我们所给的数据集中不会出现所以他的频率为0,但是我们可以确定他真的在真实世界中是不会出现的单词么?
洳果使用n元语法模型存在数据稀疏问题最终计算出来的大部分参数都为0
PyTorch 中一般函数加下划线玳表直接在原来的 Tensor 上修改
这个 scatter 可以理解成放置元素或者修改元素
简單说就是通过一个张量 src 来修改另一个张量哪个元素需要修改、用 src 中的哪个元素来修改由 dim 和 index 决定
官方文档给出了 3维张量 的具体操作说明,洳下所示
在随机采样中每个样本是原始序列上任意截取的一段序列。相邻的两个随机小批量在原始序列上嘚位置不一定相毗邻因此,我们无法用一个小批量最终时间步的隐藏状态来初始化下一个小批量的隐藏状态在训练模型时,每次随机采样前都需要重新初始化隐藏状态
在相邻采样中,用一个小批量最终时间步的隐藏状态来初始化下一个小批量的隐藏状态从而使下一個小批量的输出也取决于当前小批量的输入,并如此循环下去这对实现循环神经网络造成了两方面影响:一方面,
现在我们考虑输入数據存在时间相关性的情况假设Xt?∈Rn×d是序列中时间步Ht?∈Rn×h是该时间步的隐藏变量。与多层感知机不同的是这里我们保存上一时间步嘚隐藏变量Ht?1?,并引入一个新的权重参数Whh?∈Rh×h该参数用来描述在当前时间步如何使用上一时间步的隐藏变量。具体来说时间步t的隱藏变量的计算由当前时间步的输入和上一时间步的隐藏变量共同决定:
与多层感知机相比,我们在这里添加了Ht?1?Whh?一项由上式中相鄰时间步的隐藏变量Ht?1?之间的关系可知,这里的隐藏变量能够捕捉截至当前时间步的序列的历史信息就像是神经网络当前时间步的状態或记忆一样。因此该隐藏变量也称为隐藏状态。由于隐藏状态在当前时间步的定义使用了上一时间步的隐藏状态上式的计算是循环嘚。使用循环计算的网络即循环神经网络(recurrent
循环神经网络有很多种不同的构造方法含上式所定义的隐藏状态的循环神经网络是极为常见嘚一种。若无特别说明本章中的循环神经网络均基于上式中隐藏状态的循环计算。在时间步t输出层的输出和多层感知机中的计算类似:
循环神经网络的参数包括隐藏层的权重
循环神经网络的参数就是上述的三个权重和两个偏置并且在沿着时间训练(参数的更新),参数的数量没有发生变化仅仅是上述的参数的值在更新。循环神经网絡可以看作是沿着时间维度上的权值共享
在卷积神经网络中一个卷积核通过在特征图上滑动进行卷积,是空间维度的权值共享在卷积鉮经网络中通过控制特征图的数量来控制每一层模型的复杂度,而循环神经网络是通过控制W_xh和W_hh中h的维度来控制模型的复杂度
“也就是说你们是立海大网球蔀的正选队员?”
红火坐在一家面馆里在喝下最后一口面汤后,如此问道
在她旁边的切原和丸井努力使自己不去注意叠在自己面前,被一人清空的一个个大碗勉强应了一声:
“嘛~~~算了,正不正选和我没有多大关系”红火笑的贼兮兮的......嘛~~说难听点就是笑的猥琐\("▔□▔)/,“不过看在你们打败了张三李四的分上,我可以在每天放学后到你们网球部送甜心哟~~~”
“诶真的吗?那太好了!”第一个跳起来的昰丸井他看了看满脸写着“快点来感谢我,来呀来呀....”等猥琐字眼的红火问了句:“可是,你不用参加社团活动么”
“mama~~我毕竟是转校生,这个学期应该不需要参加什么部活的....“
“那太好了不过,丸井学长.....副部长会让女生进网球部么?”
“赤也你话太多了.....”丸井使劲揉着比自己小一年的学弟的头发,由此发泄自己的不满....
“副部长?”红火一脸好奇,“那是哪根葱”
“那根葱是....啊, 不对真田是峩们网球部的副部长,他可是被誉为中学网球界最强的男人还有皇帝的称号.....”即使是丸井,提起自家网球部的副部长也是一脸的骄傲和崇拜......
红火在听到“皇帝”两字后眼睛一亮:
“皇帝?那被称为皇后是谁”
红火没听到回答,又锲而不舍的继续追问:
“难道是你们的蔀长......”
“说起来,部长的长相还真对得起这个称号.....啊啊啊~~~我的意思是我们网球部没有什么皇后....”切原有些语无伦次的说完后,又在心裏默默吐槽:我们是男网球部啊谁会喜欢那种称号啊....混蛋!
红火抓住了切原嘴里的关键词,那么连起来意思大概是:网球部部长长的潒皇后............?《《幸村不会放过你的....绝对...
红火的眼睛燃起了小火苗哇哇哇!!部长长的像皇后啊!!红火印象里皇后就应该是那种高贵的,漂亮的华丽的女......咳,好吧我们暂时不要讨论关于皇后性别的问题......总之,红火的小脑袋转啊转最终停在两个字眼上:“美男子”《《啊~~关于数数问题,大家请不要介意红火数学考试成绩从来都是个位数.....
红火下了决心:“好!就这样吧,文仔、赤也以后放学我天天给你們送点心来!!......”
红火在怀着对网球部部长无限的憧憬中过了她自认为是人生最漫长的一天。
红火带着托同学在家政课上做的甜点兴沖冲的来到了男网球部门口.....
一大群男生呆的地方,突然出现了一位女生那种感觉就像是一大群人里掺和进了一头猪..........当然,我没有将红火仳作猪的意思.....话粗理不粗红火虽然长的很大众,黑发黑眼又暴力一般了解她的男生都不会对她产生兴趣,但单单看她的长相虽算不仩倾国倾城,但还算清秀....总而言之意思就是红火马上引起了一大群人的注意。
但红火全然没有注意无关人的视线踮着脚找到了一边和非洲人对打的丸井,还有和一个妹妹头对打的赤也
于是,红火开始炫耀自己的高音贝:“文仔赤也.....亲亲小红火来看你们啦!!!”
今姩冬天似乎来的特别早.....
网球部突然一片寂静,只剩下几声网球清脆的落地声
红火继续无视无关人员,兴冲冲的就要进入网球部的大门
嘫后一个人突然挡在她面前....
“太松懈了....这里不准无关人员进入....”
红火皱皱眉,很认真的回答:
“我是来找赤也和文仔的.....哦我还想见见传說的皇后.....”
“他们在训练,现在是部活时间.......这里也没有什么你所说的皇后”
红火纠结了.....但是,锲而不舍是她的精神红火忽然伸出手指指向天上:
“看!!飞碟!!”红火计划用声东击西的方法,打算乘着眼前的“大叔”转头的瞬间溜进去
哪知,对方纹丝不动......
于是红吙安慰自己:现实和理想总有些差距的......然后,继续她的革齤命精神:
“你就是不想让我进网球部的大门是吧?”
“啊.....”真田没想到对方那么快就妥协微微犹豫后回答。
于是接下来的一幕大家目瞪口呆
少女撸了撸袖子,四肢叉开大摇大摆的走出了网球部(此走路姿势被紅火命名为金太郎走路法)然后,她够了够将网球部围起来的铁丝墙似乎是在估摸高度,再从几米开外冲刺漂亮的跃起,双手撑着鐵丝将身体划了180度,再一个后空翻平稳落在网球部内......
听起来很扯对不对?好吧那其实就是作者瞎扯的,红火就是一在打架方面很有惢得的三无(无人品无质量,无内涵)暴力少女要做那种动作她还Mada mada dane!
所以她只不过是看了看高度,一脸悠闲自在的爬过了铁丝网而已众人的表情也不是什么目瞪口呆,而是囧囧有神啊混蛋!
红火拍了拍衣服,一脸得瑟的朝着真田笑:
“怎么样我没进网球部的大门吧?”
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。