请问PGSOFT是如何保证游戏为了保证你的安全性性的？求介绍

点击联系发帖人 时间：2018-05-11 08:54

为保证您的安全性

皮卡堂过家家,皮卡堂过家家新版,4399皮卡堂
皮卡堂小游戏说明 :
《》是一个可爱迷你的虚拟家园。快乐、创造、惊喜都可以在皮卡堂的世界中拥有。任意挑选家具和装饰，打造完全属于你的个性家园；当你醒来，就可以穿上自己最喜欢的精致衣服，去朋友的家做客聊天或去商城购物。你还会拥有自己的花园和牧场，和朋友们一起精心的种植花朵，仔细的照顾牧场里的小动物，让花朵和小动物健康地长大，耐心等待收获的日子。本游戏深受女生们的喜爱，只要你用心去玩，就能体验到完美的游戏感受。
热门搜索：
05-1005-1005-1005-1005-1005-0905-03
05-0904-2804-2604-1804-1704-1304-04
05-1005-1005-1005-1005-1005-1005-10
05-1005-1005-1005-1005-1005-1005-10
05-0305-0305-0305-0305-0305-0304-27
一个专门为爱画画的孩子进行举办的涂鸦比赛，这里欢迎爱画画的你！从现在开...
在4399游戏盒-广场-电脑游戏专区中每日签到，累计签到满1天、7天、20天可领取...
最新群组管理规定出炉啦！为了给大家营造一个和谐的皮卡堂交流场所，要共同遵守...
05-0305-0305-0305-0305-03
近期热门作品
05-1005-1005-1005-1005-1005-1005-1005-10
客服热线：400-633-3充值电话：400-633-2
客服投诉邮箱：玩家交流群：
玩家交流群：玩家交流群：GameSpy, as we know it, began in 1999. Today, 14 years later, it has reached the end of the road. We had a good run, and we want to sincerely thank all of you for reading and joining in discussions with us. It's been fantastic.
Something far more insidious than the Ceph and CELL lurks in the post-apocalyptic battleground of New York City. There's only one thing for Prophet to do: wipe them all out and take the city back.
What's another word for torture? One that implies that something is just out of reach, and is aggravating us to no end?
You know things are bad when you start to sympathize with hellspawn. At first I acknowledged my in-game avatar, demon lord of the depths Baal-Abaddon, only with the intended smirks and half-laughs warranted by his dialog. But in time I came to feel a kinship with him as we braved Impire's clumsy micromanagement in search of hard-won glory. "Tedious," he'd exclaim, and I'd find myself mouthing the words along with him. "Life: what's the point, anyway?" he'd ask, and I found myself asking the same question about our progress. By the sixth hour, I was sure we were both in a place where we didn't want to be, but no matter how repetitive or boring the circumstances became, I could take comfort in the knowledge that my new scaly friend and I were in this mess together.
So, we didn't like Aliens: Colonial Marines. Nor did most other people. But what if there had been another Aliens game entirely? What if Obsidian had made an RPG in the Aliens universe? Well, thanks to this leaked footage of a very early prototype of Aliens: Crucible, we're lucky enough to see more or less what that would have looked like.
For me, summertime is about one thing: Grillin' up some delicious, delicious meat. Pork is among my favorites. However, I suspect that Amnesia: A Machine For Pigs won't exactly whet my appetite for BBQ. The sequel to the amazing Amnesia: The Dark Descent is officially due out this summer.
R. Kelly would be proud of Firefall. Rather than just accept that the shooter's players would be stuck to the ground, they believed they could fly. With jetpacks. Those tend to help. This new trailer shows off a bit of what's possible with the things strapped to your back.
According to 20th Century Fox and Gearbox, Aliens: Colonial Marines is part of the official Alien series canon. That means the disastrously bad shooter, which takes place shortly after the end of 1986's Aliens, has ramifications on 1992's Alien 3 and 1997's Alien Resurrection (which didn't do the lore any favors either). Major ones. Aliens: Colonial Marines' storyline features some lore-breaking elements that directly contradict major events from the films and makes me wonder if Fox and Gearbox (or TimeGate, or whoever actually developed the campaign) even understand what "canon" means. Here are my three biggest problems with this incredibly damaging new version of the Alien lore. Note: We're about to delve into MAJOR SPOILER territory.
Commence game jam! Commence Mojam! Minecraft studio Mojang, a group of indie studios, and the folks behind the Humble Bundle have teamed up for Mojam 2, a 78-hour game jam that starts right now. Watch along via TwitchTV and be prepared to pay what you want for any new pixelated creations that catch your eye.
Oh, hello there, new game from Square Enix. Didn't see you lurking in the shadows back there. Love the name of your website, "www.murdered.com," but based on your quick CGI teaser trailer, I have no clue what you are, exactly. An unromantic videogame spin on Patrick Swayze's seminal work, Ghost, perhaps? Whatever it is, I'm interested in learning more about Murdered: Soul Suspect.
EA and DICE kinda sorta announced Battlefield 4 back in July when they were shilling for Medal of Honor Warfighter. Preorder Warfighter, get access to the BF4 beta, the deal went. Seven months later, it appears we're finally about to learn more about the next installment in the shooter franchise, because EA and DICE are now showing off Battlefield 4 behind closed doors and an official reveal appears imminent.
Despite the popularity of '90s classics like Wing Commander, X-Wing vs Tie Fighter, and Freespace, the combat space sim genre has been as dormant as a white dwarf for more than a decade. Thanks to crowdfunding sites like Kickstarter, however, there may be some light at the end of the wormhole for Luke Skywalker and Buck Rogers wannabes.
The original Crysis was one of the most graphically intensive games ever released on the PC, pushing the boundaries of what most graphics cards could handle even years after it arrived. Crytek's continuing to live on the edge with the release of Crysis 3, which thankfully ships with a much broader suite of graphical options than Crysis 2 originally possessed.
Like any red-blooded American, I am genetically required to hate anyone who takes the label of "King" for themselves. We like to call those folks "tyrants" around these parts. As such, I've found myself clicking my way over to Steam to pick up the new Assassin's Creed 3 DLC, The Tyranny of King Washington Episode 1: The Infamy. Now if you'll excuse me, I've got shackles to throw off.
I love the generosity of many indie developers. They really just want you to play their games. The latest in this trend of giving devs is Arcen Games, the team behind A Valley Without Wind. As of today, they've launched A Valley Without Wind 2, and are giving it away for free to anyone who purchased the first game.
Here's one thing I won't be doing in March of the Eagles, which launches today: invading Russia. I remember my history classes, and that never ends well. There's way too many people there, it's way too cold, and my Napoleonic-era soldiers aren't anywhere near ready for that sort of fight. I think I'll go ahead and let them do their own thing while I take the rest of Europe.
From case to CPU, my PC ran me roughly $1,200, so it's safe to say I'm not exactly the target consumer for Nvidia's new monster of a GPU, the $1,000 GeForce GTX Titan. Still, I can't help but salivate over the new card Nvidia says it designed for "gaming supercomputers."
BlizzCon is back. Blizzard unexpectedly canceled its annual show last year to focus on actually making games, much to the chagrin of purple-painted night elves everywhere. The convention hiatus will end in November when Blizzard opens the doors to the Anaheim Convention Center for the seventh BlizzCon.
Let's get this clear up front: Crysis 3 is a better first-person shooter than Crysis 2 in almost every way. Gameplay is more robust and varied, the storytelling is more mature, and it's often visually stunning. Unfortunately, it's also not very ambitious: it leans heavily on ideas already established by better games, and as such isn't an especially remarkable experience. Its reach might exceed its grasp in a few key areas, but Crysis 3 is still a largely enjoyable excuse to take a trip to post-apocalyptic New York.
Gamers have learned not to expect much from co-op AI companions. Keep up, don't block doorways, and throw out the occasional one-liner is about the best we can hope for. Irrational Games will attempt to raise the co-op AI bar with its time-and-space-tearing partner, Elizabeth, in BioShock Infinite, and as the latest trailer demonstrates, she will, at the very least, pack a powerful punch. And by "punch" I mean "tornado controlling super power."
One of my biggest problems with Far Cry 3 is the complete disappearance of enemies in areas where I've cleared outposts. I really like the sense of constant danger their presence provides. It seems that others feel the same way, as Ubisoft is implementing a patch that will allow us to reset every last one of them, a feature apparently requested heavily by players. Oh, and there's some other stuff too.
It's a good time to be a fan of sword fighting in games. We've got Chivalry: Medieval Warfare, War of the Roses, and now Blade Symphony, as spotted by Rock Paper Shotgun. While the former two are first-person "shooters," Blade Symphony seems to take the Jedi Knight II: Jedi Outcast route to sword fighting goodness. That means flips, dives, and flying slashes. Soon, all that goodness will be on Steam.
When I was but a young child, my father tried to make me understand the value of a dollar. I'll cut out the middle of the story, but the result of the lesson is my ability to wait until games are on sale before I buy them. This week, GOG.com makes that waiting really pay off, because they're dropping the prices on a ton of classic games like Myst: Masterpiece Edition, The Incredible Machine, and Outcast.
Look, Dean "Rocket" Hall. We love DayZ. We appreciate the mod, and think it's pretty great. You really didn't have to go through all this trouble of making the standalone product so darn awesome. The fact that you've been completely remaking the zombie survival shooter from the ground up is completely unnecessary. Oh, you went ahead and did it anyway? Well, you're just the best.
Gosh -- the cars in the upcoming GRID 2 are so exquisitely curved and shiny that I kind of want to stick my weathered old Honda Civic in there for "character." Then again, I'm guessing my humble sedan can't rev quite like the babies in this new gameplay trailer do.
I like how this faction-by-faction reveal of Total War: Rome 2 gets a little more barbaric each time. We've seen plush feathered headdresses devolve into ankle-tattoos-on-shields and now? People are totally wearing dogs on their heads. Say hello to the Suebi, a tribe so barbaric that they seem a-okay with sauntering into battle shirtless.
Huggable-looking 16-bit critters? Yeah, that's not what I'd have expected to find on the front page of a certain famed torrent website either. Yes, it's a videogame promo for Zelda-esque indie adventure Anodyne, but it's also sort of an interesting remark on the state of videogame piracy.
Poor, poor Ace of Spades. The Minecraft-meets-TF2 concept had such promise, but only managed to scrape up a poor-at-best rating in . Will this gangster-themed "Valentine's Day Massacre" DLC help at all in patching up our massacred hearts?
Got four USB controllers lying around? Good. Grab (or make) some friends, too -- you'll need 'em all for Moth Kidz, a warm fuzzies-inducing indie adventure that explores the power of friendship.
Dispatches
Our Latest Big Reviews
It left us feeling like we'd been mugged.
Great action -- once it gets going.
Pandora's toughest adventure yet!
A surprise hit in a tropical paradise.
Special Features
False advertising, release shenanigans, and more.
How this fantastical shooter defies expectations.
SWTOR vs STO vs LOTRO
What's creating a lonely feeling?
A chronological journey.
COMING SOON
Release Date:Apr 15, 2003
Release Date:Apr 15, 2003
Release Date:Jun 29, 20133027 人喜欢
1485 人喜欢
1425 人喜欢
1335 人喜欢
1314 人喜欢
1118 人喜欢
1027 人喜欢
1023 人喜欢
844 人喜欢
高速下载软件,内存清理,一键更新,硬件性能测试等.
《RIVE（RIVE）》是Two T..
是由Firaxis Games开发，..
Blue Sheep 蓝羊动作冒险..
你是否厌倦了射击游戏无休止的屠杀?那..
The Walking Dead: ..
《暗影之刃:再次出击(ShadowB..
超越暗黑破坏神3 动作网游《维克多弗..
《里奥的宝藏》游戏要求玩家帮助一只名..
两个故事却是同种命运：
　　游戏的..
Annotable ..
「我的绿洲 - 治愈人心的空岛育成」..
小朋友都喜欢在睡前听一个小故事，但有..
不能拍照取字的文字扫描仪不是一个好翻..
对于很多人来说，键盘上的听写功能有点..
「外接显示屏：iDisplay」是一..
「Potatso Lite - 最简..
游戏中我们将扮演 illi ，它是一..
<font color="# 坦克是多少小伙伴的童年记忆啊，..
排序规则 :
Mac 软件下载工具, Mac 软件宝箱. 你再也不用为下载软件烦恼了, 直接就可以下载你喜欢的 Mac 软件.
最新软件: 每日为您更新最新的 Mac 应用软件. 专门为你服务.
排行: 精选排行,
扫描无线网络，现在更方便，更个性化！ AirRadar可以让您扫描开放网络和作为收藏标记。查看..
Mac平台的优秀代码编辑器，而根据其官网介绍，Sublime Text的特点如下：拥有高效、没有..
强大的剪切板增强工具. 可以记录无穷尽的粘贴复制记录用户日后访问时候使用. 界面美观操作简单.
Mysql数据库管理工具
小巧但是不简单的画图工具支持剪裁翻转画图等等功能.
Downie for Mac是一个超级易于使用的视频下载，支持YouTube，Vimeo 超过1..
SQLServer Mac管理客户端
markdown 开发工具
网页全页抓图工具. 可以保存整个网页到图片文件或者PDF文件
创建，编辑和发表 RSS feeds
Feeder is a fully featured..
创建软RAID 的工具.
可以将整个网站下载到本地后脱机查看的工具免费
SiteSucker is an appl..
FTP (file transfer protocol), SFTP和 iDisk/WebDA..
强大的防火墙工具, 可以实时侦测和组织程序或进程访问互联网.
数据库管理工具支持mysql mssql 远程管理
专业的写作工具
显示系统信息的小插件, 可以显示内存 CPU 硬盘使用量, 电池循环次数.网络信息等.
NTFS格式文件系统写入补丁. 可以让Mac OS X支持NTFS格式的硬盘写入文件. Wind..
由Stairways Software推出的键盘大师Keyboard Maestro for M..
Mac系统备份工具 : Carbon Copy Cloner ,简称CCC，支援Mac OS X..
[第1页/共294页]
[首页] [上一页]PaperWeekly
提及 Generative Models，Variational Autoencoder(VAE) 和 GAN 可以说是两座大山头。上上期的《 GAN for NLP》一文中对 GAN 在 NLP 中的进展做了详细的介绍，推荐错过的朋友不要再错过。虽然 GAN 在图像生成上效果显著（当然 VAE 也很强），但在 NLP 方面暂时还是 VAE 较为work。今天的分享作为姊妹篇（捂脸），对 VAE 在 NLP 的应用里选取几篇最具有代表性的 paper 进行介绍。我会尽量梳理论文之间的联系，希望对大家有所帮助。本期涉及的论文有：
《Generating Sentences From a Continuous Spaces》. ICLR 2016
《Neural Variational Inference for Text Processing》. ICML 2016
《Language as a Latent Variable: Discrete Generative Models for Sentence Compression》. EMNLP 2016
《A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues》. AAAI 2017
在展开之前，我先带大家简单回顾一下 VAE 的核心。1)
如上图所示，VAE 可以看做是 Standard autoencoder 的 regularized version（在 autoencoder 的架构上引入随机 latent variable ）。2)
VAE 从 data 学到的是在 latent space 的 region，而不是单个点。换句话说是 encode 学到了一个概率分布 q(z|x)。3)
引入 KL divergence 让后验 q(z|x) 接近先验 p(z)。这里的 motivation 在于如果仅用 reconstruction loss，q(z|x) 的 variances 还是会很小（又和原有的单个点差不多了）。VAE 详细推导这里就不展开，各种 tutorial 也非常多。只要掌握变分推断和理解 reparametrization trick 就基本 ok 了。下面进入正题。
Generating Sentences From a Continuous Spaces论文链接:
这篇文章对后面很多 paper 影响很大而且我也很喜欢，所以重点介绍一下。paper 最早发表在 ICLR 2016 上，motivation 在于作者为了弥补传统的 RNNLM 结构缺少的一些 global feature（其实可以理解为想要 sentence representation）。其实抛开 generative model，之前也有一些比较成功的 non-generative 的方法，比如 sequence autoencoders[1]，skip-thought[2] 和 paragraph vector[3]。但随着 VAE 的加入，generative model 也开始在文本上有更多的可能性。
Loss 的组成还是和 VAE 一样。具体模型上，encoder 和 decoder 都采用单层的 LSTM，decoder 可以看做是特殊的 RNNLM，其 initial state 是这个 hidden code z（latent variable），z 采样自 Gaussian 分布 G，G 的参数由 encoder 后面加的一层 linear layer 得到。这里的 z 就是作者想要的 global latent sentence representation，被赋予了先验diagonal Gaussians，同时 G 就是学到的后验。
模型很简单，但实际训练时有一个很严重的问题：KL 会迅速降到0，后验失效了。原因在于，由于 RNN-based 的 decoder 有着非常强的 modeling power，直接导致即使依赖很少的 history 信息也可以让 reconstruction errors 降得很低，换句话说，decoder 不依赖 encoder 提供的这个 z 了，模型等同于退化成 RNNLM（摊手）。顺便一提，本文最后有一篇 paper 也是为了解决这个问题。
先看这篇 paper 提出的解决方法：KL cost annealing 和 Word dropout。
KL cost annealing
作者引入一个权重 w 来控制这个 KL 项，并让 w 从 0 开始随着训练逐渐慢慢增大。作者的意思是一开始让模型学会 encode 更多信息到 z 里，然后随着 w 增大再 smooth encodings。其实从工程/代码的角度看，因为 KL 这项更容易降低，模型会优先去优化 KL，于是 KL 很快就降成 0。但如果我们乘以一开始很小的 w，模型就会选择忽视 KL（这项整体很小不用降低了），选择优先去降低 reconstruction errors。当 w 慢慢增大，模型也慢慢开始关注降低 KL 这项了。这个技巧在调参中其实也非常实用。
Word dropout
既然问题是 RNN-based 的 decoder 能力太强，那我们就来弱化它好了。具体方法是把 input 的词替换成 UNK（我可能是个假的 decoder），模型被迫只能去多多依赖 z。当然保留多少 input 也需要尝试，我们把全都不保留的叫做inputless decoder，实验表明，inputless VAE 比起 inputless RNN language model 不知道好到哪里去了。
受到 GAN 的启发，作者还提出了一个 Adversarial evaluation，用一半真一半假的数据作为样本训练出一个分类器，再对比不同模型生成的句子有多少能骗过这个分类器，这个 evaluation 被用在 Imputing missing words 这个任务上，VAE 的表现同样比 RNNLM 出色。
最后，作者展示模型的确学到了平滑的 sentence representation。选取两个sentence 的code z1和z2，z1 和 z2 可以看做向量空间的两个点，这两个点连线之间的点对应的句子也都符合语法且 high-level 的信息也保持局部一致。
Neural Variational Inference for Text Processing
论文链接：
其实这篇 paper 和第一篇是一起投的 ICLR，后来转投了 ICML 2016，所以时间上其实和第一篇是一样的（两篇文章也有互相引用）。不同于第一篇，作者的出发点是构建一个 generative neural variational framework。为了证明
framework 的优越性，分别在 unsupervised 和 supervised 的任务上提出了两个模型，结果也很令人满意。
第一个任务是 unsupervised document modeling，模型叫 Neural Variational Document Model（NVDM）。h 和第一篇的 z 一样，在这里代表 latent document semantics，但 document 是以 bag-of-words 的形式（个人以为这里作者主要还是受到 LDA 的影响）。encoder 采用 MLP, decoder 是一层 softmax。
第二个任务是 supervised answer selection，模型叫 Neural Answer Selection Model（NASM）。文本的建模方式采用 LSTM（在第二个任务用 LSTM，第一个任务用词袋，可能为了证明普适性）。h 代表 latent question semantics。如上图所示，Zq 和 Za 用来表示 question 和 answer，y 代表 answer 是不是正确答案，用 Zq 和 Za 预测 y。那么 Zq 和 Za 是怎么得到的呢？ Zq 延用 LSTM 的 last state，而 Za 则较为复杂，所谓脱离问题谈答案都是耍流氓，所以对 Za 建模时要显式的放入 question的信息。可这里该怎么表示 question 呢？如果还用 Zq，模型很容易 overfitting。这里我们的 latent h 终于可以出场了，引入 h 不仅起到了 muti-modal 的效果，还让模型更 robust，再把基于 attention 的 c(a,h) 和 answer 的 LSTM last state 组和得到 Za。这种做法对我们在寻找 representation 时有很好的借鉴作用。最后通过推导 variational lower bound 确定 h 的先验是 p(h|q)（第一个任务中先验是 p(h)）, 这里就不赘述了。
Language as a Latent Variable: Discrete Generative Models for Sentence Compression
论文链接：
这篇 paper 发表在 EMNLP 2016，同样出自第二篇 paper 的作者。传统的 VAE 是把数据 encode 成 continuous latent variable，这篇 paper 的贡献在于提出了一个 generative model 用来学到 language 的 discrete representation——一个带有 sequential discrete latent variable 的 VAE。所谓的 discrete latent variable 就是指一个单词，加上 sequential 其实就是一个句子，由于 VAE 本身是压缩数据的，换句话说是用短一点的句子来表示原来的句子，也就是句子压缩。我觉得作者的 intuition 在于每个句子可以有多个缩写，且都可以表示原句，有一点点 distribution 的意思，所以用 latent variable 很合适。
原句和压缩句分别是 s 和 c ，模型整体是 encoder -& compressor -& decoder。我们分解开看，encoder -& compressor 采用 pointer network[4] 只从 s 里选取合适的词而不是整个词典，从而大大减少了 search space。compressor -& decoder 是一个带 soft attention 的 seq2seq。这个模型的好处是不需要 label 数据，但是如果我们有足够的 label 数据（真实数据里 c 里的词可不仅仅来自 s），需要额外加个 softmax 从整个词典里选词，同时再定义一个 latent factor判断是从 s（pointer network）还是从词典里选，更加符合任务需求。
值得一提的是 Variational lower bound 里的 p(c) 是 pre-train 好的 language model。因为 Language model 的一个特点是比较喜欢短句子，很适合句子压缩的场景。由于 reparameterisation trick 并不适用 discrete latent variable，作者还采用了 REINFORCE[5] 的方法（凡是 discrete 的问题，GAN/VAE 都可以采用 REINFORCE）。
A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues
论文链接：
这是第一篇把 VAE 的思想引入到 dialogue 的 paper。和普通的 VAE 区别在于 dialogue 的 reconstruction 是生成的下一句 utterance，而不是 input 自身。这篇 paper 的前身是 HRED[6]，HRED 的核心思想是，把 dialogue 看做是 two-level：dialogue 是 utterance 的组合，utterance 是 words 的组合。HRED 由3个 RNN 组成：encode RNN 把每个 utterance 变成 real-valued 的向量 u，context RNN 把每个 turn 里的 u 作为输入变成向量 c，最后把 c 交给 deocde RNN 生成下一个 utterance。
VHRED 在 HRED 的基础上每个 turn 里引入一个 latent variable z，z 由context RNN 的 c 生成。z 的意义比较笼统，sentiment/topic 怎么解释都行。模型的训练技巧如 KL annealing 等大量借鉴了第一篇 paper 的思想，特别要注意训练时的 z 从后验采样（保证 decode 的正确性），测试时再从先验采样（KL 已经把分布拉近）。实验表明， latent variable 有助于生成更加 diverse 的回复。
第一次将 VAE 引入机器翻译：《Variational neural machine translation》EMNLP 2016论文链接：为了改进 KL 迅速降到0，提出 convolutional 和 recurrent 结合的 VAE：《A Hybrid Convolutional Variational Autoencoder for Text Generation》论文链接：
[1] Semi-supervised sequence learning[2] Skip-thought vectors[3] Distributed representations of sentences and documents[4] Pointer Networks[5] Recurrent models of visual attention[6] Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models
引言本期Chat是PaperWeekly第一次尝试与读者进行互动交流，一共分享和解读3篇paper，均选自2016年最值得读的自然语言处理领域paper，分别是：
End-to-End Reinforcement Learning of Dialogue Agents for Information Access
Dual Learning for Machine Translation
SQuAD: 100,000+ Questions for Machine Comprehension of Text
作者Bhuwan Dhingra, Lihong Li, Xiujun Li, Jianfeng Gao, Yun-Nung Chen, Faisal Ahmed, Li Deng
单位School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, USAMicrosoft Research, Redmond, WA, USANational Taiwan University, Taipei, Taiwan
关键词Dialogue Agent, Reinforcement Learning
文章来源arXiv
问题用强化学习构造一个端到端的任务驱动的基于知识图谱的对话系统。
模型一个任务驱动的对话系统，一般通过自然语言与用户进行多轮交流，帮助用户解决一些特定问题，例如订机票或检索数据库等。一般由下面四部分组成：
Language Understanding Module(LU): 理解用户意图并提取相关slots。例如用户想找一部电影，那么就需要提取出电影名称，演员，上映时间等相关slots信息。
Dialogue State Tracker: 追踪用户的目标和对话的历史信息。
Dialogue Policy: 基于当前状态选择系统的下一步action, 例如向用户询问电影上映时间的action是request(year)。
Natural Language Generator(NLG):将系统的action转化成自然语言文本。例如将request(year) 转换成：电影什么时候上映的？
在Dialogue Policy这一步，传统方法一般是生成一个类似SQL的查询语句，从数据库中检索答案，但是这会使模型不可微从而只能分开训练。本文使用了基于概率的框架，因此是可微的，从而实现了端到端的训练过程。
论文中用到的数据库，是来自IMDB的电影数据库。每一行代表一部电影，每一列是一个slot，信息有可能存在缺失。
整体框架如下图：
下面分别介绍各个部分：
Feature Extractor
将用户每轮的输入文本转化成一个向量，这里使用了ngram词袋模型(n=2)。
Belief Trackers
用于追踪对话状态和历史信息。
这里针对每一列的slot,分别有一个belief tracker。每个belief tracker的输入是从feature extractor得到的向量，用GRU处理以后，得到一个状态向量。根据这个状态向量，分别计算得到两个输出：pj和qj。
pj是当前slot下所有值的概率分布，qj是用户不知道这个slot值的概率。
因为在和用户交互的过程中，应当尽可能询问用户知道的信息，询问用户不知道的信息对后面的查询没有任何意义。
Soft-KB Lookup
根据Belief Trackers的输出，计算数据库中每个值的概率分布。
Beliefs Summary
由Belief Trackers和Soft-KB Lookup,可以得到当前的对话状态向量st。st向量包含了数据库中所有值的概率分布户是否知识等信息，实在是太大了，直接送给Policy Network会导致其参数过多，难以训练。因此这一步把slot-values转化成了加权的熵统计信息。
Policy Network
这里使用策略网络，根据Beliefs Summary的输入状态向量，来输出各个action的概率分布π。具体结构是GRU+全连接层+softmax的方式。
Action Selection
这里从策略分布π采样，得到下一步的action。如果action是inform(),说明到了对话的最后一步，需要给用户返回Top k的查询结果。这里按照Soft-KB Lookup步骤中得到的每一行电影的概率，进行采样来返回Top K候选。
这里的NLG部分和上面是独立的，使用了sequence-to-sequence模型，输入action,输出包含slot的对话模板，然后进行填充，得到自然语言文本。
训练这里用的基于策略梯度的强化学习模型进行训练，目标是最大化reward的期望。最后一轮inform部分的reward是由正确答案在Top K候选中的排序位置决定，排序越靠前，reward越高。如果候选没有包含正确答案，那么reward是-1。
对话交互训练数据是通过一个模拟器从电影数据中采样生成得到。
End2End-RL：本文提出的模型。
Rule-based：Belief Trackers和Policy部分都是人工规则。
Simple-RL：只有Belief Trackers是人工规则，而Policy部分是基于GRU。
实验结果如下图：
相关工作对话的相关工作很多，包括传统基于Markov Decision Processes的POMDPs, 基于Q-Learning的SimpleDS，基于API查询的方法，基于最小化熵的EMDM等等，感兴趣的读者可以查询相关文献。
简评深度强化学习在对话系统的应用越来越多，本文最大的贡献，是提出了一个可微的基于概率的框架，从而使End-to-End训练成为可能，相比传统方法各部分分别训练，联合训练可以有效的减少错误传递。而基于深度强化学习的训练方式，相比传统基于规则的方式，在高噪音输入的情况下，有着更好的表现。
完成人信息王哲，中国科学技术大学，xiaose@mail.ustc.edu.cn。
####Chat实录
问：我对“因此这一步把slot-values转化成了加权的熵统计信息”的合理性和物理意义有些不明，我在最近的论文中很少看到这样的做法，请问是因为效果的原因吗？
答：这个熵指的是信息熵，不是物理中的热力学熵。信息熵把一个系统的不确定性，按照其可能出现结果的概率分布，进行定量化计算，得到的是可以获取的信息量大小。信息熵越大，不确定性就越大，我们可以获取的信息量也就越大。任务驱动的问题系统，在得到最终查询结果前，希望尽可能多的从用户那里获取信息，减少系统本身的不确定性，因此我们在知道一个slot中各种实体概率的情况下，用信息熵来度量一个slot的不确定性，还是挺合理挺自然的。熵的用法在深度学习网络中还是挺多的,例如我们经常用交叉熵做损失函数。同时文本分类任务中，经常用TFIDF值作为特征，而TFIDF值是可以由信息熵推导出来的。
问：论文中提到：”Moreover, instead of defining an attention distribution directly over the KB entities, which could be very large, we instead induce it from the smaller distributions over each relation (or slot in dialogue terminology) in the KB” 这里smaller distributions ，以及each relation怎么理解，为什么能小？
答：这里的relation，指的是slots,也就是表格的各个列属性，例如year,actor等。和entities的数目相比，一个slot对应的属性值数目要小很多。entity概率计算的时候，是把各个属性的概率相乘得到的。而一个属性的概率，取决于这个属性有多少值，假设我们有3个属性，每个属性的值的数目分别是k1,k2,k3，那么entities可能的计算量就是k1 * k2 * k3。现在作者假设每个属性之间是相互独立的,因此实际计算量可以理解成k1+k2+k3，所以slots的属性分布和entities分布相比，是smaller distributions。
问：增强学习在chatbot研究中使用时相比监督学习有哪些优势和劣势？
答：先说说强化学习的优势：
监督学习当前研究比较多的，是以seq2seq为代表的生成模型。它目前一个比较大的问题，是生成结果缺乏多样性，倾向于生成比较安全比较常见的回答，例如“谢谢”，“不知道”。这个主要是因为，训练目标是用最大似然拟合训练数据，而经常在训练数据中出现的回答，会占一些优势，因此后续有很多工作试图改进这个问题，例如用互信息作为目标函数，在解码搜索过程中，对常见结果进行惩罚，提高生成结果的多样性等等。
监督学习的另外一个问题，是训练过程和预测过程不一致。训练的时候，当我们解码生成一个句子的下一个词的时候，是基于训练语料中的正确结果，而预测的时候，我们并不知道标准答案是什么，因此解码下一个词的时候，是基于我们预测的结果。这种不一致会影响最终结果，就像考试我们遇到之前没有见过的题型，我们的考试成绩可能会变差一样。增强学习，有希望解决这两个问题的。
针对第一个问题，我们借助增强学习的reward,引入一些明确的的奖励目标，用来指导对话的生成。例如，如果我们想训练一个淘宝客服的对话系统，我们可以用商品最终是否购买，来作为奖励目标，这样可以引导对话向着商品成功购买的方向发展，因此可以产生更好的对话结果。目前还有一个最新的工作，是将生成对抗网络，引入对话系统，因为当前对话系统一个很大的问题，是缺乏可靠的自动化评价指标，而对抗生成网络中，我们有一个生成模型，也就是我们的对话生成系统，还有一个判别模型，这个判别模型的目标，是判断这个对话，是机器生成的，还是人写的，这样就引入了一个比较明确的奖励目标，也更接近图灵测试，而连接生成网络和判别网络的桥梁，就是强化学习。因为NLP的词，相比图像，是离散的，我们可以借助类似AlphaGo中的蒙特卡洛搜索，来采样得到训练样本，送给判别模型。针对第二个问题，强化学习在训练的过程中，生成模型是通过采样产生样本，这个过程和预测是一致的，因此也避免了不一致带来的问题。
综上所述，增强学习在对话系统中有很大的优势。
下面说说他的劣势：
和监督学习相比，强化学习的训练是比较困难的，因为训练的过程很不稳定。而且具体的对话系统中，reward的奖励一般是基于一个完整的句子，而如何把reward奖励分配到具体的词，是一个很大的挑战。而在多轮对话中，reward一般只出现在最后一轮，如何对前面的几轮对话分配reward,也同样是一个问题。同时为了稳定强化学习的训练过程，我们不能完全离开监督学习，一般还需要借助监督学习的方法，来做初始化训练，甚至在训练过程中，需要穿插监督学习过程，起到稳定网络的作用。以上就是增强学习在对话系统中的优劣。
问：论文中的pr(Gj＝i｜j＝0)为什么等于1/N呢？也就是在用户不知道第值时，目标是i的概率为什么等于1/N？
答：用户不知道第j个属性，也就是说，在第j个属性上，用户不能提供有效信息。那么我们从属性j的角度，看各个实体的时候，实际上是没有什么区别的。因此最保险的方式，就是假设各个实体的概率相等，因此概率是1/N。
问：增强学习在chatbot中的reward函数是否都是根据相应的需求来手动给出，而非学习得来？
答：有些是可以手动给出的，例如Bengio的An Actor-Critic Algorithm for Sequence Prediction这篇论文，就把BLEU作为reward，用于机器翻译模型的训练。reward也可以学习得来，例如GAN应用到对话系统的时候，生成模型的reward就是由判别模型给出的，而在对偶学习中，一个模型的reward由它对应的对偶模型给出。
2. 作者Yingce Xia, Di He, Tao Qin, Liwei Wang, Nenghai Yu, Tie-Yan Liu, Wei-Ying Ma
单位中科大，北大，微软亚研院
关键词 NMT，monolingual data, dual learning
文章来源NIPS 2016
问题利用双向NMT模型，在少量双语数据，大量单语数据的情况下，如何提高NMT的性能。
模型主要的思想是通过two-agent communication game，用单语语料和语言模型来提升双向NMT的性能。利用A语言的单语语料进行学习的two-agent communication game过程如下：
agent1读入语言A的单语句子，通过A到B的NMT模型转换成语言B的句子，并且发送给agent2。
agent2接收到agent1发送的语言B的句子，通过语言B的语言模型$LM_B$，给出一个reward $r_1$。再通过B到A的NMT模型，将句子转换成语言A并且发送给agent1。
agent1接收到agent2发送的语言A的句子，和最初的单语句子做比较，给出另一个reward $r_2$。
那么$r=\alpha r_1+(1-\alpha) r_2$，agent1和agent2就能根据reward $r$对A到B和B到A的NMT模型进行学习。
如果用公式表达，这个过程的目标函数就是：
$$\mathbb{E}_{\mathbf{s}_{mid}|\mathbf{s};\Theta_{A\rightarrow B}}[\alpha LM_B({\mathbf{s}_{mid}})+(1-\alpha) P(\mathbf{s}|\mathbf{s}_{mid};\Theta_{B\rightarrow A})]$$
由于$\mathbf{s}_{mid}$的sample space无穷大，需要做一些近似来求期望。文中考虑到random sampling会有较大的variance和一些不合理的翻译，采用了N-best来近似（$N=2$, 用beam search得到）。
整个训练分成3个step:
用双语语料，普通的MLE training来学习A到B和B到A的NMT模型，作为warm start。
每一个minibatch里面一部分单语语料，一部分双语语料，对双语语料用MLE作为目标函数，单语语料用上面的公式作为目标函数；随着training的进行，减少双语语料的比例。训练交替地从语言A或者语言B开始。
最后完全用单语语料，通过上面的公式作为目标函数进行训练。
相关工作这篇文章和Semi-Supervised Learning for Neural Machine Translation以及Neural Machine Translation with Reconstruction比较相似，都是用双向NMT模型来互相学习增强，区别在于这篇引入了语言模型。和Minimum Risk Training for Neural Machine Translation也有一定的相关性，相当于MRT中的loss function用了语言模型和反向NMT进行定义。
简评这篇文章从reinforcement learning的角度，将单语语料很好地融入到双向NMT的训练中，在使用10%双语语料的情况下也能取得较好的翻译结果。整体上来说非常有意思，也可以推广到更多的tasks in dual form。
完成人信息陈云，香港大学，yun.。
提问本文中使用了哪一种reinforcement learning的方法？
####Chat实录
问：论文中的相关工作部分提到了另外两篇neural machine translation的相关工作，请问作者可否简单介绍一下那两个模型的主要方法呢？以及它们和dual learning的最大区别。
答：另外两篇论文分别是semi-supervised Neural Machine Translation 以及Neural Machine Translation with Reconstruction。 semi-supervised这篇是利用autoencoder，将源端和目标端的单语语料引入，进行双向NMT联合训练；reconstruction这篇，是在普通MLE目标函数的基础上，增加了从目标端的hidden state重建源句子的概率这一项。首先我谈一下他们的区别。
出发的角度不一样：
semi-supervised：如何将source和target端的单语语料引入，通过双向NMT提高NMT的性能。
recosntruction：解决translation adequacy的问题, 避免翻译的句子太短或者重复翻译某一部分。利用双向NMT优化原来的MLE目标函数。
dual learning：在少量平行语料，大量单语语料的情况下，如何利用双向NMT提高NMT的性能。
语料需求不一样：
semi-supervised: source,target端的单语语料，文中实验双语语料比单语语料多。
reconstruction: 没用单语语料。
dual learning: 10%的双语语料，大量单语语料。并且用了预先用单语语料训练好的语言模型。
解释的角度不一样：
semi-supervised: 双向NMT联合训练，目标函数包括两个方向的MLE，以及source&target autoencoder的reconstruction probability。
reconstruction: 目标函数在普通的MLE基础上增加了由reconstructor定义的reconstruction probability。
dual learning: 基于policy gradient的增强学习。用two agents play games这样的形式来解释。
而他们也有一些相同的地方:
都是用双向NMT来提高普通MLE训练的单向NMT的性能。reconstruction一篇相当于在原来的目标函数上加了reconstruction error，由于只用了双语语料，所以目标句子y是已知的。而semi-supervised和dual learning都会处理单语语料。在处理源端单语句子时，目标端的y是未知的。这二者都可以看成是一种句子级别的模型，通过正向的NMT产生一些句子来近似整个目标端输出空间，然后通过反向NMT给出句子的feedback(dual learning同时用了LM给出的feedback)。
大家可以对比一下他们的目标函数，能够比较明显地看出区别和联系来。
问：可以用dual-learning这样的framework来解决的其他问题吗？
答：有很多dual tasks都可以用这个框架，比如 speech recognization & text to speech, Image captioning & Image generation, Question answering & Question generation, 还有 Query-document matching & Query/keyword suggestion。这篇文章之前MSRA的和有在斗鱼上直播过，大家可以看一下。
问：Dual Learning 中语言模型 LM 没看到在那里有详细的说明？刚才说的 Autoencoder，是在哪里提到的呢
答：语言模型在文章中的第四页第二段可以看到：“This middle step has an immediate reward r1 = LMB(smid), indicating how natural the output sentence is in language B.” Reward包括r1和r2, r1就是语言模型给的reward。语言模型是用单语语料提前训练好的，在NMT的整个training过程中固定不变。
Autoencoder在dual learning这篇没有提到，是在semi-supervised那篇提到的。
问：请问dual learning和GAN是否有相似之处还是完全不相关的两种思路
答：是有相似之处。作者之一秦涛在斗鱼直播有提到，GAN在某种程度上可以看成是dual learning的一种特殊情况。将generator看成是primal task，discriminator看成是dual task, 通过f和g共同学习来互相增强。dual task主要是为了给primal task提供feedback。个人觉得dual learning和GAN最大的区别在于对discriminator的定义不一样，GAN定义成分类问题，而dual learning定义的是一个重建问题。
问：论文中的算法提到了一个参数alpha，它的意义是什么呢？是需要手动调参还是一个机器学习优化得到的参数呢？
答：这个alpha其实是LM reward跟反向NMT reward的一个trade-off，是手动调的。文章后面有写，设置成0.005能取得较好的效果。
问：reconstruction error 以前常见于投影 project 重建 rebuild，或者是编码重建 encode/decode。图像上，一般常用 residual 来表示，例如子空间算法，KSVD 分解等等。这种对偶重建的方法，有没有可能发展成一种泛化的投影重建？
答：我觉得你可以尝试一下，图像上的东西不太懂。如果可以做成这种对偶tasks的形式,一个task take 某个action的reward可以由另外一个task给出，应该就可以试试。
3. 作者Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang
单位Computer Science Department, Stanford University
关键词Question Answering, Dataset Creation
文章来源EMNLP 2016
问题创建一个large and high quality reading comprehension dataset。
模型数据收集
用PageRanks搜寻出top 10000 English Wiki articles，然后uniformly sample 536 articles，做相关数据清洗后得到23215 paragraphs。这部分数据被分成三部分，training set(80%)，development set(10%)，test set(10%)。
下一步我们将这些paragraphs都放到Amazon Mechanical Turk上让用户创建问题以及回答问题。这样我们便得到了一个新的QA数据集。
为了评估human在这个QA数据集上的表现，development set和test set中的每个问题被至少发给了两个额外的crowdworkers，其中有2.6%的问题被crowdworkers标记为unanswerable。
数据集分析
我们把答案分成了两部分，numerical和non-numerical。对non-numerical answers再做一次constituency parsing和POS Tagging，发现答案分布如下图所示。
Baselines作者做了sliding window baseline和logistic regression baseline，用accuracy和F1 Score做评估。结果如下图所示。
资源在可以看到所有dataset的信息，test set leaderboard上有各种Model的performance。
相关工作Question Answering方面的dataset有不少，最近比较popular的有：MCTest by Microsoft，BAbI dataset by Facebook，WikiQA by Microsoft，CNN/Daily Mail by DeepMind, Children’s Book Test by Facebook。有兴趣的读者可以查阅相关文献。
简评SQuAD是一个高质量的Reading comprehension dataset。作者花费了大量的人力物力，让Crowdworkers根据Wikipedia Paragraph出题和答题。构建的dataset数量巨大且质量高，对未来Reading Comprehension Question Answering的研究非常有帮助。
完成人信息Zewei Chu，The University of Chicago，。
提问作者在评估SQuAD dataset的时候，使用了哪些baseline模型，具体是如何训练和测试的？
####Chat实录
问：请介绍一下这个reading comprehension dataset和其他dataset之间的主要区别？以及该dataset的优势是？
答：这篇paper相对于前面两篇内容简单一些，主要就是介绍了一个新构建的QA数据集。所以我和大家交流分享一下我比较熟悉的最近一些比较popular的QA Dataset吧。
MCTest: 数据集本身质量不错，像普通的阅读理解，是根据一篇文章提出问题，然后在给定的四个选项中选出一个。但是数据集太小，现在比较主流的RC model都是基于deep learning的，数据量太小很难让model学习到有用的信息。所以个人认为小数据集上的Model多少会给人一种强凑答案的感觉。
CNN/Daily Mail, CBT: 这个数据集我比较熟悉，数据集比较大，也是比较火的一个数据集。问题的答案只是一个单词或者一个entity，SQuAD的答案有比较长的phrase。the entities are anonymized。在anonymized dataset上训练的一个问题是，容易训练出没有semantics的模型来。因为训练集上的参考答案都是entity1，entity2，到了真实情况下碰到很大的vocabulary模型未必work。
安利一下，分析了一下几个在CNN/DM/CBT上面比较好的几个模型attention sum/gated attention sum/stanford reader其实本质是差不多的。然后stanford reader虽然在这个数据集上效果很好但是一旦数据集不anonymize就很容易不work了。
WDW dataset:Passage: 直接给一个例子。
Britain’s decision on Thursday to drop extradition proceedings against Gen. Augusto Pinochet and allow him to return to Chile is understandably frustrating … Jack Straw, the home secretary, said the 84-year-old former dictator’s ability to understand the charges against him and to direct his defense had been seriously impaired by a series of strokes. … Chile’s president-elect, Ricardo Lagos, has wisely pledged to let justice run its course. But the outgoing government of President Eduardo Frei is pushing a constitutional reform that would allow Pinochet to step down from the Senate and retain parliamentary immunity from prosecution. …
Question: Sources close to the presidential palace said that Fujimori declined at the last moment to leave the country and instead he will send a high level delegation to the ceremony, at which Chilean President Eduardo Frei will pass the mandate to XXX.
Choices: (1) Augusto Pinochet (2) Jack Straw (3) Ricardo Lagos
还有一个dataset叫wiki QA我也没有在上面实验过，也给一个例子。
Question: Who wrote second Corinthians? Second Epistle to the Corinthians The Second Epistle to the Corinthians, often referred to as Second Corinthians (and written as 2 Corinthians), is the eighth book of the New Testament of the Bible. Paul the Apostle and “Timothy our brother” wrote this epistle to “the church of God which is at Corinth, with all the saints which are in all Achaia”.
个人觉得open domain以及需要external knowledge的QA DATASET其实很难，但是很重要，因为可以应用在其他更多的方面。
另外提一个LAMBADA dataset，虽然他的问题是last word prediction，不过我们发现用reading comprehension models也可以做出很好的效果。详细信息可以看。
facebook有个babi dataset，
1 Mary moved to the bathroom.
2 John went to the hallway.
3 Where is Mary?
4 Daniel went back to the hallway.
5 Sandra moved to the garden.
6 Where is Daniel?
7 John moved to the office.
8 Sandra journeyed to the bathroom.
9 Where is Daniel?
10 Mary moved to the hallway.
11 Daniel travelled to the office.
12 Where is Daniel?
13 John went back to the garden.
14 John moved to the bedroom.
15 Where is Sandra?
1 Sandra travelled to the office.
2 Sandra went to the bathroom.
3 Where is Sandra?
需要一些logical thinking，facebook自己搞了一些memory network的模型在上面效果比较好，但是其实我觉得memory network和attention模型非常相似。
至于本文构建的squad dataset主要的特点就是答案可能比较长，而且不给候选答案，所以难度应该会大一些数据集的质量也比较高，因为都是人工出的问题和标准答案，数据量也很大，容易训练处有用的模型。
个人认为构建大的，有意义的数据集对于QA的工作是很关键的。现在还是比较缺乏能够推广到实际生活中的问题的QA模型。
我大致就分享这一些。给想做QA方面问题的同学一点参考。
【对话系统】本文提出了一种特定领域对话系统的端到端训练方案，相比于传统的端到端模型来说，亮点在于用更少量的、更有效的数据进行训练，并且结合一些动作模板和API来做对话生成，探索了监督学习和增强学习两种方案。作者是来自微软研究院Jason D. Williams，本篇文章对去年的这篇End-to-end LSTM-based dialog control optimized with supervised and reinforcement learning进行了一些新的改进。
【语义分析】本文提出了一种语义分析框架UDepLambda，可将自然语言映射为逻辑形式，用于QA任务，取得了不错的效果。
【NMT】本文的亮点在于将语言学知识融入到了seq2seq+attention模型中，而不只是简单的端到端。如何将更多的、更丰富的先验知识构建到现有的模型中是一个重要的课题，也是一个值得思考的方向。
【问答系统】 2001年，IBM的沃森系统在Jeopardy节目中，与人类同场竞技，并且最终取得胜利。问答系统在过去20年，迅猛发展，并成为热点研究课题。然而，对于自然语言的深层理解，例如基于英文句子的逻辑推理，依然有待深入研究。本文研究如何应用次协调逻辑系统(Paraconsistent logic)，表达自然语言的语义，并且进行逻辑推理。该理论可以自动地找出自然语言述中的矛盾(语义悖论)，并且在存在语义冲突的环境中进行合理的逻辑推理。本文工作来自Stony Brook University的TIANTIAN GAO同学。
【信息抽取】本文解决的问题是短语抽取，亮点在于：1、利用已有的知识库（Wikipedia）做远程监督训练；2、利用词性信息来增加抽取的准确性。本文工作来自UIUC Jiawei Han老师组。
【语言模型】深度学习模型做一些排列、组合和变换之后会形成无穷多的模型，本文在经典neural语言模型+attention模型的基础上，对每个time step中的output vector进行了分割，用其中一部分向量作为attention，也就是所谓的short attention。
引言第二十二期的PaperWeekly对Image Captioning进行了综述。今天这篇文章中，我们会介绍一些近期的工作。（如果你对Image Captioning这个任务不熟悉的话，请移步二十二期）
Image Captioning的模型一般是encoder-decoder的模型。模型对$p(S|I)$进行建模，$S$是描述，$I$是图片。模型的训练目标是最大化log似然：$\max_\theta\sum_i \log P(S_i|I_i, \theta)$。
然而使用最大似然训练有两个问题：
虽然训练时最大化后验概率，但是在评估时使用的测度则为BLEU，METEOR，ROUGE，CIDER等。这里有训练loss和评估方法不统一的问题。而且log似然可以认为对每个单词都给予一样的权重，然而实际上有些单词可能更重要一些（比如说一些表示内容的单词）。
第二个问题为Exposure bias。训练的时候，每个时刻的输入都是来自于真实的caption。而生成的时候，每个时刻的输入来自于前一时刻的输出；所以一旦有一个单词生成的不好，错误可能会接着传递，使得生成的越来越糟糕。
如何解决这两个问题呢？很显而易见的想法就是尽量使得训练和评估时的情形一样。我们可以在训练的时候不优化log似然，而是直接最大化CIDER（或者BLEU，METEOR，ROUGE等）。并且，在训练时也和测试时一样使用前一时刻的输入，而不是全使用ground truth输入。
然而这有什么难点呢？第一，CIDER或者这一些metric并不是可直接求导。（这就是为什么在分类问题中，我们把0-1 error近似成log loss，hinge loss的原因）。其次从前一时刻输出获得后一时刻的输入涉及到采样操作，这也是不可微的。为了能够解决这些不可微的问题，人们就想到了Reinforcement learning。
RL基本概念RL中有一些比较重要的基本概念：状态（state），行为（action），回报（reward）和决策（policy）。决策是一个状态到动作的函数，一般是需要学习的东西。拿打游戏的例子介绍RL最简单。如果说是玩flappy bird，RL要学习的就是在什么位置跳，能使得最后得到的分数越高。在这个例子里，最后的分数就是回报，位置就是状态，跳或者不跳就是行为，而什么时候跳就是学到的策略。
如果放在Image captioning中，状态就是你看到的图片和已生成的单词，而动作就是下一个单词生成什么，回报就是CIDER等metric。
相关文献最近已经有很多工作将RL用在NLP相关的问题上。[1]第一次将REINFORCE算法用在image caption和seq2seq问题上。[5]将使用了更先进的RL算法 — Actor-critic — 来做machine translation上。[2,4]将[1]的算法进行稍许改进（仍旧是REINFORCE算法），使用在了image captioning上。[3]将REINFORCE用在序列生成GAN中，解决了之前序列生成器输出为离散不可微的问题。[6]将RL用在自然对话系统中。这篇文章中我们主要介绍[1,2,4]。
RL算法背景这三篇文章使用的是REINFORCE算法，属于增强学习中Policy Gradient的一种。我们需要将deterministic的策略形式 $a=\pi(s,\theta)$转化为概率形式，$p(a) = \pi(a|s, \theta)$。Policy Gradient就是对参数$\theta$求梯度的方法。
直观的想，如果我们希望最后的决策能获得更高的reward，最简单的就是使得高reward的行为有高概率，低reward的行为有低概率。所以REINFORCE的更新目标为
$$\max_{\theta} \sum R(a,s)\log \pi(a|s, \theta)$$
$R(s,a)$是回报函数。有了目标，我们可以通过随机梯度下降来更新$\theta$来获得更大的回报。
然而这个方法有一个问题，训练时梯度的方差过大，导致训练不稳定。我们可以思考一下，如果reward的值为100到120之间，现在的方法虽然能更大地提高reward为120的行为的概率，但是也还是会提升低reward的行为的概率。所以为了克服这个问题，又有了REINFORCE with baseline。
$$\max_{\theta} \sum (R(a,s) - b(s))\log \pi(a|s, \theta)$$
$b(s)$在这里就是baseline，目的是通过给回报一个基准来减少方差。假设还是100到120的回报，我们将baseline设为110，那么只有100回报的行为就会被降低概率，而120回报的行为则会被提升概率。
三篇paper第一篇是FAIR在ICLR2016发表的[1]。这篇文章是第一个将RL的算法应用的离散序列生成的文章。文章中介绍了三种不同的方法，这里我们只看最后一种算法，Mixed Incremental Cross-Entropy Reinforce。
大体的想法就是用REINFORCE with baseline来希望直接优化BLEU4分数。具体训练的时候，他们先用最大似然方法做预训练，然后用REINFORCE finetune。在REINFORCE阶段，生成器不再使用任何ground truth信息，而是直接从RNN模型随机采样，最后获得采样的序列的BLEU4的分数r作为reward来更新整个序列生成器。
这里他们使用baseline在每个时刻是不同的；是每个RNN隐变量的一个线性函数。这个线性函数也会在训练中更新。他们的系统最后能比一般的的cross extropy loss，和scheduled sampling等方法获得更好的结果。
他们在github开源了基于torch的代码，
第二篇论文是今年CVPR的投稿。这篇文章在[1]的基础上改变了baseline的选取。他们并没有使用任何函数来对baseline进行建模，而是使用了greedy decoding的结果的回报作为baseline。他们声称这个baseline减小了梯度的variance。
这个baseline理解起来也很简单：如果采样得到句子没有greedy decoding的结果好，那么降低这句话的概率，如果比greedy decoding还要好，则提高它的概率。
这个方法的好处在于避免了训练一个模型，并且这个baseline也极易获得。有一个很有意思的现象是，一旦使用了这样的训练方法，beam search和greedy decoding的结果就几乎一致了。
目前这篇文章的结果是COCO排行榜上第一名。他们使用CIDEr作为优化的reward，并且发现优化CIDEr能够使所有其他metric如BLEU，ROUGE，METEOR都能提高。
他们的附录中有一些captioning的结果。他们发现他们的模型在一些非寻常的图片上表现很好，比如说有一张手心里捧着一个长劲鹿的图。
第三篇论文[4]也是这次CVPR的投稿。这篇文章则是在$R(a,s)$这一项动了手脚。
前两篇都有一个共同特点，对所有时刻的单词，他们的$R(a,s)$都是一样的。然而这篇文章则给每个时刻的提供了不同的回报。
其实这个动机很好理解。比如说，定冠词a，无论生成的句子质量如何，都很容易在句首出现。假设说在一次采样中，a在句首，且最后的获得回报减去baseline后为负，这时候a的概率也会因此被调低，但是实际上大多数情况a对最后结果的好坏并没有影响。所以这篇文章采用了在每个时刻用$Q(w_{1:t})$来代替了原来一样的$R$。
这个$Q$的定义为，
$Q\theta(w{1:t}) = \mathbb{E}{w{t+1:T}}[R(w{1:t}, w{t+1:T})]$
也就是说，当前时刻的回报，为固定了前t个单词的期望回报。考虑a的例子，由于a作为句首生成的结果有好有坏，最后的Q值可能接近于baseline，所以a的概率也就不会被很大地更新。实际使用中，这个Q值可以通过rollout来估计：固定前t个词后，随机采样K个序列，取他们的平均回报作为Q值。文中K为3。这篇文章中的baseline则跟[1]中类似。
从实验结果上，第三篇并没有第二篇好，但是很大一部分原因是因为使用的模型和特征都比较老旧。
总结将RL用在序列生成上似乎是现在新的潮流。但是现在使用的大多数的RL方法还比较简单，比如本文中的REINFORCE算法可追溯到上个世纪。RL本身也是一个很火热的领域，所以可以预计会有更多的论文将二者有机地结合。
参考文献[1] Ranzato, Marc’Aurelio, Sumit Chopra, Michael Auli, and Wojciech Zaremba. “Sequence level training with recurrent neural networks.” arXiv preprint arXiv: (2015).
[2] Rennie, Steven J., Etienne Marcheret, Youssef Mroueh, Jarret Ross, and Vaibhava Goel. “Self-critical Sequence Training for Image Captioning.” arXiv preprint arXiv: (2016).
[3] Yu, Lantao, Weinan Zhang, Jun Wang, and Yong Yu. “Seqgan: sequence generative adversarial nets with policy gradient.” arXiv preprint arXiv: (2016).
[4] Liu, Siqi, Zhenhai Zhu, Ning Ye, Sergio Guadarrama, and Kevin Murphy. “Optimization of image description metrics using policy gradient methods.” arXiv preprint arXiv: (2016).
[5] Bahdanau, Dzmitry, Philemon Brakel, Kelvin Xu, Anirudh Goyal, Ryan Lowe, Joelle Pineau, Aaron Courville, and Yoshua Bengio. “An actor-critic algorithm for sequence prediction.” arXiv preprint arXiv: (2016).
[6] Li, Jiwei, Will Monroe, Alan Ritter, Michel Galley, Jianfeng Gao, and Dan Jurafsky. “Deep reinforcement learning for dialogue generation.” arXiv preprint arXiv: (2016).
【词表示】本文提出了一种对已有的词向量进行预处理的方法，用来对学习到的词向量降噪。基于词向量自身的几何结构 — 均值非零以及各项不同性，本文提出了一个反直观的处理方法：从所有的词向量中移除均值，以及移除部分导致各项不同性的方向。虽然这种处理方式忽略了词向量中的部分信息，但是它可以使多种通过不同方式训练出来的词向量加强词向量中包含的语义信息。经过预处理之后的词向量在一系列intrinsic衡量方式上（similarity, analogy, concept categorization）得到了一致性地提高。同时，我们通过了不同的应用上进行了测试，试验结果表明该预处理已经在诸多neural network中有所体现，进一步证实了对词向量进行预处理的重要性。本文工作来自UIUC NLP组的Jiaqi Mu，她也是Paperweekly的作者团队成员之一。
【注意力模型】本文的工作是将Attention模型进行了structure的扩展，考虑了结构上的依赖，提出了所谓的Structured Attention Networks，测试了两种模型的效果，linear-chain CRF和基于图的parsing模型，比传统的attention效果要好。工作来自HarvardNLP组，代码已开源在
【推荐系统】本文研究的问题是如何给用户推荐合适的产品评论。推荐的问题关键在于计算user和target的相似度，这里的target是指product review或者opinion。模型新意并无太多，所解决的问题比较有意思。
【CNN or RNN】本文系统地对比了CNN和RNN在NLP各大任务上的表现，包括：情感分类、关系分类、文本蕴含、答案选择、问题关系匹配、PQA、词性标注等。RNN在大部分任务上都表现的更好，除了在关键词匹配和识别这类任务不如CNN。这篇文章有很多不错的结论，值得一读！
【对话系统】【基于知识】本文研究的问题是用完全数据驱动的模型生成带有知识的对话内容，在原有seq2seq模型的基础上增加了一个fact encoder来生成对话。解决方案很实用，也很有启发性，建议研读。本文工作来自Information Sciences Institute和微软研究院。
【序列标注】本文针对RNN对GPU并行计算性能利用不够的弱点，用了一种改进版的CNN模型Iterated Dilated Convolutions来代替Bi LSTM作为CRF的feature extractor，实验结果证明该方法更快更准。
【问答系统】本文研究的问题很有意思，用半监督方法来做问答系统，用无标签的文本来生成问题，通过联合人工给出的问题和生成的问题来一起训练问答模型，同时利用增强学习算法来尽量减小算法生成问题概率分布和人工给定问题概率分布之间的差异。
【机器翻译】【解码算法】本文研究的是机器翻译中一个不太被重视的方向，解码算法，创新点在于用增强学习算法对解码目标函数进行优化求解。
【seq2seq解码】本文研究的问题是在seq2seq解决对话生成、机器翻译、文本摘要时如何用增强学习的方法高效率地进行decoding，比起经典的softmax多分类预测next word，增强学习通过Q函数对所生成的文本内容有着更好的控制，但训练效率太低，本文的亮点在于优化和改进了传统的RL模型。建议研究机器翻译、对话生成等seq2seq任务的童鞋研读。
【NLG】 GAN的火热逐渐地烧到了自然语言处理中，尤其是自然语言生成NLG任务上，本文工作来自Jiwei Li，一个高产的作者。对GAN和chatbot感兴趣的童鞋可以好好读一下。
【多模态】【NMT】本文的工作亮点在于将多种信息融合应用到机器翻译任务中，相比于传统方案有了一定的提升。但多模态的训练数据需要非常高的代价来准备，实用性是一个非常大的挑战。
【对话系统】【评测】自动评测一直是困扰对话系统研究的一个重要问题，本文尝试用了GAN的思路来对生成的对话进行效果评测，discriminator通过预测response到底是human给出的还是generator生成的来进行评测，是一个很短的文章，也是一个尝试性的工作，来自google brain和deepmind。
【IGC】【对话生成】本文的亮点在于提出了一个新的任务，有点类似VQA，比VQA更复杂一些的是对要求机器对图像的理解更加深入，然后将图像信息作为对话的context进行QA。在找新方向的童鞋可以过来看看这个任务。
【通用ai】这是一个梦，造一个通用的ai，相比现在的针对具体领域具体任务的ai来说，本文想做的事情更加宽阔和宏观一些。工作来自facebook，并且给出了一个通用ai的框架，代码地址：
【车牌拍卖预测】车牌拍卖是个常见的事儿，很多牛逼的数字，比如8通常可以拍到很高的价钱，本文研究的问题正是用深度学习模型来预测车牌号的拍卖价格，基于char-level的预测模型，模型没有太多亮点，研究的问题有点意思。
【表示学习】【综述】本文是一篇综述，非常详细地介绍了NLP中词各种表示方法，从符号到分布式表示，比较全面。
引言什么是艺术？机器的作品能否叫艺术？机器能否取代艺术家？这些问题，相信不同的人，会有不同的答案。很多人认为机器生成的作品只是简单的模仿人类，没有创造性可言，但是人类艺术家，不也是从模仿和学习开始的吗？本文是一篇机器诗歌生成的综述文章，希望能增进大家对这个领域的了解。
基于传统方法的诗歌生成
诗歌是人类文学皇冠上的明珠。我国自《诗经》以后，两千年来的诗篇灿若繁星。让机器自动生成诗歌，一直是人工智能领域一个有挑战性的工作。机器诗歌生成的工作，始于20世纪70年代。传统的诗歌生成方法，主要有以下几种：
Word Salada（词语沙拉）：最早期的诗歌生成模型，只是简单将词语进行随机组合和堆砌而不考虑语义语法要求。
基于模板和模式的方法：基于模板的方法类似于完形填空，将一首现有诗歌挖去一些词，作为模板，再用一些其他词进行替换，产生新的诗歌。这种方法生成的诗歌在语法上有所提升，但是灵活性太差。因此后来出现了基于模式的方法，通过对每个位置词的词性，韵律平仄进行限制，来进行诗歌生成。
基于遗传算法的方法：周昌乐等[1]提出并应用到宋词生成上。这里将诗歌生成看成状态空间搜索问题。先从随机诗句开始，然后借助人工定义的诗句评估函数，不断进行评估，进化的迭代，最终得到诗歌。这种方法在单句上有较好的结果，但是句子之间缺乏语义连贯性。
基于摘要生成的方法：严睿等[2]将诗歌生成看成给定写作意图的摘要生成问题，同时加入了诗歌相关的一些优化约束。
基于统计机器翻译的方法：MSRA的何晶和周明[3]将诗歌生成看成一个机器翻译问题，将上一句看成源语言，下一句看成目标语言，用统计机器翻译模型进行翻译，并加上平仄押韵等约束，得到下一句。通过不断重复这个过程，得到一首完整的诗歌。
基于深度学习技术的诗歌生成传统方法非常依赖于诗词领域的专业知识，需要专家设计大量的人工规则，对生成诗词的格律和质量进行约束。同时迁移能力也比较差，难以直接应用到其他文体（唐诗，宋词等）和语言（英文，日文等）。随着深度学习技术的发展，诗歌生成的研究进入了一个新的阶段。
RNNLM基于RNN语言模型[4]的方法，将诗歌的整体内容，作为训练语料送给RNN语言模型进行训练。训练完成后，先给定一些初始内容，然后就可以按照语言模型输出的概率分布进行采样得到下一个词，不断重复这个过程就产生完整的诗歌。Karpathy有一篇文章，讲的很详细：
Chinese Poetry Generation with Recurrent Neural Networks RNNPG模型[5]，首先由用户给定的关键词生成第一句，然后由第一句话生成第二句话，由一，二句话生成第三句话，重复这个过程，直到诗歌生成完成。模型的模型由三部分组成：Convolutional Sentence Model（CSM）：CNN模型，用于获取一句话的向量表示。Recurrent Context Model(RCM)：句子级别的RNN，根据历史生成句子的向量，输出下一个要生成句子的Context向量。Recurrent Generation Model(RGM)：字符级别RNN，根据RCM输出的Context向量和该句之前已经生成的字符，输出下一个字符的概率分布。解码的时候根据RGM模型输出的概率和语言模型概率加权以后，生成下一句诗歌，由人工规则保证押韵。模型结构如下图：
模型生成例子如下图：
Chinese Song Iambics Generation with Neural Attention-based Model模型[6]是基于attention的encoder-decoder框架，将历史已经生成的内容作为源语言序列，将下一句要生成的话作为目标语言序列。需要用户提供第一句话，然后由第一句生成第二句，第一，二句生成第三句，并不断重复这个过程，直到生成完整诗歌。基于Attention机制配合LSTM，可以学习更长的诗歌，同时在一定程度上，可以提高前后语义的连贯性。
模型结构如下图：
模型生成例子如下图：
Chinese Poetry Generation with Planning based Neural Network 模型[8]是一个端到端的模型，不需要专家领域知识。它试图模仿人类写作前先规划一个写作大纲的过程。整个诗歌生成框架由两部分组成：规划模型和生成模型。规划模型：将代表用户写作意图的Query作为输入，生成一个写作大纲。写作大纲是一个由主题词组成的序列，第i个主题词代表第i句的主题。生成模型：基于encoder-decoder框架。有两个encoder,其中一个encoder处理主题词，另外一个encoder处理历史生成的句子，decoder负责生成下一句话。decoder生成的时候，利用Attention机制，对主题词和历史生成内容的向量一起做打分，由模型来决定生成的过程中各部分的重要性。前面介绍的几个模型，用户的写作意图，基本只能反映在第一句，随着生成过程往后进行，后面句子和用户写作意图的关系越来越弱，就有可能发生主题漂移问题。而规划模型可以使用户的写作意图直接影响整首诗的生成，因此在一定程度上，避免了主题漂移问题，使整首诗的逻辑语义和情感更为连贯。
总体框架图如下：
生成模型框架图如下：
诗歌图灵测试例子：
现代概念诗歌生成例子：
i, Poet: Automatic Poetry Composition through Recurrent Neural Networks with Iterative Polishing Schema 模型[7]基于encoder-decoder框架，一个比较有意思的地方，是想模拟人类写诗反复修改的过程，加入了打磨机制，通过反复迭代来提高诗歌生成质量。encoder阶段：用户提供一个Query作为自己的写作意图,由CNN模型获取Query的向量表示。decoder阶段：使用了hierarchical的RNN生成框架，由句子级别和词级别两个RNN组成。句子级别RNN：输入句子向量表示，输出下一个句子的Context向量。字符级别RNN：输入Context向量和历史生成字符，输出下一个字符的概率分布。当一句生成结束的时候，字符级别RNN的最后一个向量，作为表示这个句子的向量，送给句子级别RNN。
总体框架图如下：
Generating Topical Poetry 模型[9]基于encoder-decoder框架，分为两步。先根据用户输入的关键词得到每句话的最后一个词，这些词都押韵且与用户输入相关。再将这些押韵词作为一个序列，送给encoder,由decoder生成整个诗歌。这种机制一方面保证了押韵，另外一方面，和之前提到的规划模型类似，在一定程度上避免了主题漂移问题。
SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient 模型[10]将图像中的对抗生成网络，用到文本生成上。生成网络是一个RNN，直接生成整首诗歌。而判别网络是一个CNN。用于判断这首诗歌是人写的，还是机器生成的，并通过强化学习的方式，将梯度回传给生成网络。模型框架图如下：
总结从传统方法到深度学习，诗歌生成技术有了很大发展，甚至在一定程度上，已经可以产生普通人真假难辨的诗歌。但是目前诗歌生成技术，学习到的仍然只是知识的概率分布，即诗句内，诗句间的搭配规律。而没有学到诗歌蕴含思想感情。因此尽管生成的诗歌看起来有模有样，但是仍然感觉只是徒有其表，缺乏一丝人的灵性。另外一方面，诗歌不像机器翻译有BLEU作为评价指标，目前仍然依赖人工的主观评价，缺乏可靠的自动评估方法，因此模型优化的目标函数和主观的诗歌评价指标之间，存在较大的gap，也影响了诗歌生成质量的提高。AlphaGo已经可以击败顶尖人类选手，但是在诗歌生成上，机器尚有很长的路要走。
参考文献 [1]
【对话语言模型】传统的基于上下文的（context dependent）语言模型多是先将前文中的信息做特征表达，例如用LDA、n-gram、或是RNN等方法做文本的特征提取，再将其加入到RNN语言模型中。这些方法比较适合于表达文档（document）的上下文信息，但他们并没有针对上下文中的交互做建模，因此并不一定适用于对话中（dialog）的上下文信息表达。本文针对如何有效表达对话中的交互做了探索，提出了两种基于RNN的上下文关联语言模型，在Switchboard Dialog Act Corpus (SwDA)上取得了一定的效果，并尝试对实验结果做了进一步分析。本文采用的数据集地址：本文作者是CMU的bing liu博士，也是paperweekly的写作成员之一。
【对话系统】【seq2seq】本文尝试了用seq2seq+attention+copynet的思路来做面向具体任务的chatbot，在所提指标上得到了不错的效果，所用数据集为DSTC2，工作来自stanford Christopher D. Manning 教授组，建议精读。
【观点挖掘】通过算法分析一句话中人对某一个实体的态度是一件不容易的事情，现在的方法也比较多，本文的亮点在于用Memory Network模型来做这件事情。对观点挖掘、情感分析感兴趣的童鞋可以深入读一下。
【Chunking】很多的NLP任务，比如浅层分析、slot filling、ner等等都可以当成是序列标注任务，用经典的概率图模型、RNN模型及其变种和两者的混合模型来处理，本文提出了用seq2seq+pointer的方法来解决这一经典问题，并且取得了不错的效果。关注序列标注的童鞋可以精读此文。本文工作来自IBM，被AAAI2017 accepted。
【深度学习框架】这个框架是由CMU推出的一款深度学习框架，最大的特点是动态性，尤其擅长解决自然语言处理相关问题，c++实现，python封装，代码地址：
【深度学习框架】推荐一个基于matlab的深度学习框架，包括了常见的CNN、RNN模型和各种模块以及增强学习，支持cpu和gpu两种训练模式，简单易用，方便灵活。感兴趣的童鞋可以看过来，fork一下。代码地址：
引言Image Caption是一个融合计算机视觉、自然语言处理和机器学习的问题，它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易，但是对于机器却非常具有挑战性，它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外，模型还需要能够抓住图像的语义信息，并且生成人类可读的句子。随着机器翻译和大数据的兴起，出现了Image Caption的研究浪潮。当前大多数的Image Caption方法基于encoder-decoder模型。其中encoder一般为卷积神经网络，利用最后全连接层或者卷积层的特征作作为图像的特征，decoder一般为递归神经网络，主要用于图像描述的生成。由于普通RNN存在梯度下降的问题，RNN只能记忆之前有限的时间单元的内容，而LSTM是一种特殊的RNN架构，能够解决梯度消失等问题，并且其具有长期记忆，所以一般在decoder阶段采用LSTM.
问题描述Image Caption问题可以定义为二元组(I,S)的形式，其中I表示图，S为目标单词序列，其中S={S1,S2,…}，其中St为来自于数据集提取的单词。训练的目标是使最大似然p(S|I)取得最大值，即使生成的语句和目标语句更加匹配，也可以表达为用尽可能准确的用语句去描述图像。
数据集论文中常用数据集为Flickr8k,Flick30k,MSCOCO,其中各个数据集的图片数量如下表所示。
数据集图片和描述示例如图
其中每张图像都至少有5张参考描述。为了使每张图像具有多种互相独立的描述，数据集使用了不同的语法去描述同一张图像。如示例图所示，相同图像的不同描述侧重场景的不同方面或者使用不同的语法构成。
模型本文主要介绍基于神经网络的方法
1 NIC[1]Show and Tell: A Neural Image Caption Generator本文提出了一种encoder-decoder框架，其中通过CNN提取图像特征，然后经过LSTM生成目标语言，其目标函数为最大化目标描述的最大似然估计。
该模型主要包括encoder-decoder两个部分。encoder部分为一个用于提取图像特征的卷积神经网络，可以采用VGG16，VGG19, GoogleNet等模型, decoder为经典的LSTM递归神经网络，其中第一步的输入为经过卷积神经网络提取的图像特征，其后时刻输入为每个单词的词向量表达。对于每个单词首先通过one-hot向量进行表示，然后经过词嵌入模型，变成与图像特征相同的维度。
2 MS Captivator[2]From captions to visual concepts and back本文首先利用多实例学习，去训练视觉检测器来提取一副图像中所包含的单词，然后学习一个统计模型用于生成描述。对于视觉检测器部分，由于数据集对图像并没有准确的边框标注，并且一些形容词、动词也不能通过图像直接表达，所以本文采用Multiple Instance Learning(MIL)的弱监督方法，用于训练检测器。
3 Hard-Attention Soft-Attention[3]Show, atten and tell: Neural image caption generation with visual attention受最近注意机制在机器翻译中发展的启发，作者提出了在图像的卷积特征中结合空间注意机制的方法，然后将上下文信息输入到encoder-decoder框架中。在encoder阶段，与之前直接通过全连接层提取特征不同，作者使用较低层的卷积层作为图像特征，其中卷积层保留了图像空间信息，然后结合注意机制，能够动态的选择图像的空间特征用于decoder阶段。在decoder阶段，输入增加了图像上下文向量，该向量是当前时刻图像的显著区域的特征表达。
4 gLSTM[4]Guiding long-short term memory for image caption generation使用语义信息来指导LSTM在各个时刻生成描述。由于经典的NIC[1]模型，只是在LSTM模型开始时候输入图像，但是LSTM随着时间的增长，会慢慢缺少图像特征的指导，所以本文采取了三种不同的语义信息，用于指导每个时刻单词的生成，其中guidance分别为Retrieval-based guidance (ret-gLSTM), Semantic embedding guidance(emb-gLSTM) ,Image as guidance (img-gLSTM).
5 sentence-condition[5]Image Caption Generation with Text-Conditional Semantic Attention
该模型首先利用卷积神经网络提取图像特征，然后结合图像特征和词嵌入的文本特征作为gLSTM的输入。由于之前gLSTM的guidance都采用了时间不变的信息，忽略了不同时刻guidance信息的不同，而作者采用了text-conditional的方法，并且和图像特征相结合，最终能够根据图像的特定部分用于当前单词的生成。
6 Att-CNN+LSTM [6]What value do explicit high level concepts have in vision to language problems?如图，作者首先利用VggNet模型在ImageNet数据库进行预训练，然后进行多标签数训练。给一张图片，首先产生多个候选区域，将多个候选区域输入CNN产生多标签预测结果，然后将结果经过max pooling作为图像的高层语义信息，最后输入到LSTM用于描述的生成。该方法相当于保留了图像的高层语义信息，不仅在Image Caption上取得了不错的结果，在VQA问题上，也取得很好的成绩。
7 MSM[7]BOOSTING IMAGE CAPTIONING WITH ATTRIBUTES
该文研究了图像属性特征对于描述结果的影响，其中图像属性特征通过多实例学习[2]的方法进行提取。作者采用了五种不同的组合形式进行对比。其中第3种、第5种，在五种中的表现出了比较好的效果。由于提取属性的模型，之前用于描述图像的单词的生成，所以属性特征能够更加抓住图像的重要特征。而该文中的第3种形式，相当于在NIC模型的基础上，在之前加上了属性作为LSTM的初始输入，增强了模型对于图像属性的理解。第5种，在每个时间节点将属性和文本信息进行结合作为输入，使每一步单词的生成都能够利用图像属性的信息。
8 When to Look[8]Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning
该文主要提出了何时利用何种特征的概念。由于有些描述单词可能并不直接和图像相关，而是可以从当前生成的}

淘宝游戏网