论文阅读笔记——Fine-Grained Analysis of Sentence Embeddings Using Auxiliary Prediciton Tasks

利用预测任务来详细分析句子嵌入表达 by Yossi Adi, Einat Kermany, Yonatan Belinkov, Ofer Lavi, Yoav Goldberg for ICLR 2017.原文链接

摘要

背景：为了表达句子的意思，把不同长度的句子编码至一个固定长度的向量吸引了很多研究兴趣。
传统方法：基于词向量平均和基于RNN如LSTM隐藏层的表达。
使用：句子向量作为特征被用于机器学习任务的一部分或者为了对上下文进行预训练。
现状：无法充分了解句子嵌入表达的特点和他们捕获的信息
本文内容：
- 提出一个更好理解编码表达的框架
- 方法：本文通过训练分类器来解决每个预测任务时使用表示作为输入，定义关于句子结构的孤立方面（即句子长度，单词内容和单词顺序）的预测任务和分数表示。本文通过分析不同句子的表现机制来展示该方法的潜在贡献。
- 结果：分析揭示了不同句子嵌入方法相对于这些低级预测任务的相对强度，以及编码向量的维数对所得到的表示的影响。

背景：目前尽管句子嵌入或者句子表达在最近的深度学习NLP方法中占主要的地位，但是不同句子嵌入学习机制到底能获得什么的样的信息被研究的很少。
常见的嵌入表达方法：平均词向量，有标注的Seq2Seq，无标注的Seq2Seq。
问题：句子表达是不透明的，而且目前没有一个很好的方法比较不同的表达以及他们在不同高层次语义任务（情感分类，内涵识别，文档检索，问答系统，句子相似度计算等）的性能表现。
本文贡献：
- 方法：提出一个方法利用编码在句子嵌入表达的一些信息的细粒度的评价和比较不同嵌入方法的细粒度比较。
- 比较的基础：基于LSTM的自编码和简单的CBOW表达。还有skip-thought 嵌入表达。
- 比较的点：不同的编码器和不同的向量维度对结果的影响;句子的最基础的特征——长度，蕴含的项和项的顺序;不同的句子表达能否编码这些概念。
研究发现：
- 基于平均词向量的句子表达非常有效，但是编码后，没有句子顺序和长度的特征。
- LSTM的自编码器在编码句子顺序比句子内容更有效
- 提高编码向量的维度在一些任务上更好
- 增加隐藏层可以提高编码词内容的能力
- 以自编码训练的LSTM编码器，当编码新的句子的时候，不依赖于编码模式

～

对于每一个实验，设计一个预测任务。给定一个句子表达方法，产生训练数据，训练一个分类器来预测句子的特定属性（如长度，词的内容属性和词的顺序）
预测任务：
- 长度任务：预测句子的长度，多分类
- 词内容任务：二分类任务。对测试单词是来自句子本身还是整个数据集进行分类
- 词顺序任务：二分类任务。预测单词1是否在单词2前或后。

本文主要是探究常见的句子嵌入表达到底有没有用，并尝试去解释其特点。但是这个是浅层次的句子表达测试，还需要更深入的探究。我们的目标是得到一个可解释的，表达能力非常强的句子嵌入表达。