论文阅读笔记——Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
利用编码-解码器为机器翻译学习段落表达 by Bengio in 2014.原文链接
摘要:
- 本文内容:提出一个新的神经网络模型——RNN编码-解码器,其包含两个RNN网络。
- 主要内容:其中一个RNN神经网络将一句话编码到一个确定长度的向量表达,另一个RNN神经网络将这个向量表达解码到另一个句子。
- 目标函数:这个模型的编码器和解码器被联合训练以最大化在给定一个源句子的情况下,目标句子的条件概率。
- 结果:提高了统计机器翻译的质量。
- 特点:本次提出的模型,学习到了高质量句子的语法和语义表达。
简介
- 深度学习肯定可以被并已经被大量应用于NLP领域:语言模型/段落检测/词嵌入表达。
- 新的神经网络框架可以被作为传统基于段落的统计机器翻译(SMT)系统的一部分。
- RNN Encoder-Decoder:其中编码器,将不同长度的源句子映射到一个设定长度的向量,然后解码器把这个固定长度的向量映射到目标语言的不定长度的句子。
- 训练目标是最大化P(target_seq|source_seq)。
- 另外,我们提出利用复杂隐含单元来提高记忆能力和训练情况
- 特点:RNN Encoder-Decoder 学习的段落的连续空间的表达,同时包含了语义和语法结构
RNN Encoder-Decoder
初步:RNN
RNN Encoder-Decoder
作用
在机器翻译等取得了极佳的成果
小结
- 本文应该是相对较早的seq2seq模型。
- seq2seq也可以应用于文本表达方面。