Study in IRLAB

A_Survey_of_Neural_Network_Techniques_for_Feature_Extraction_from_Text

文本特征提取的神经网络技术调查

少有的文本特征提取的综述by Vineet John from University of Waterloo

除了常见的特征,词性标注、词块、命名实体识别和语义角色标注也算是特征提取。

背景

  • 词性标注(Part-of-Speech Tagging):指对每个词一个独特的标记以表明其语义角色,如名词、动词和副词等;最好的词性标注器是基于分类器;bi-directional dependency network 和 利用 support vector machines and bi-directional Viterbi decoders.

  • 词块识别(Chunking):识别句子中的短语。

  • 命名实体识别(Named Entity Recognition):对句子中的单元进行标注,如人或者地点之类。

  • 语义角色标注(Semantic Role Labeling):标注句子中的语义角色;可以生成句法分析树。

文档向量化

把文档内容转化成数字向量表达

  • N-gram Model: 在给定一个文本的序列中,选择连续的n个项的序列;然后每个N-gram和word都被表示为一个二元向量。

  • TF-IDF Model:是一种词袋模型,没有表示词序列;其值随着词在文档中出现的次数增加而增加,随着词在语料库中的次数的增加而减少。

  • Paragraph Vector Model:对不同长度的文本如句子和文档,用无监督的方法,训练一个固定长度的向量。Doc2Vec 和 FastText。

NLP的初级神经网络模型

  • 全连接前馈神经网络,一种非线性的学习器
  • 利用与训练好的词向量的全连接前馈神经网络
  • 多层前馈神经网络
  • 卷积和池化框架
  • 递归和循环神经网络

神经概率语言模型

多层概率神经网络语言模型

段落和稳当的多层神经自编码器