A_Survey_of_Neural_Network_Techniques_for_Feature_Extraction_from_Text

Posted on 2017-05-01 | In Note

文本特征提取的神经网络技术调查

少有的文本特征提取的综述by Vineet John from University of Waterloo

除了常见的特征，词性标注、词块、命名实体识别和语义角色标注也算是特征提取。

背景

词性标注(Part-of-Speech Tagging)：指对每个词一个独特的标记以表明其语义角色，如名词、动词和副词等；最好的词性标注器是基于分类器；bi-directional dependency network 和利用 support vector machines and bi-directional Viterbi decoders.
词块识别(Chunking)：识别句子中的短语。
命名实体识别(Named Entity Recognition)：对句子中的单元进行标注，如人或者地点之类。
语义角色标注(Semantic Role Labeling)：标注句子中的语义角色；可以生成句法分析树。

文档向量化

把文档内容转化成数字向量表达

N-gram Model: 在给定一个文本的序列中，选择连续的n个项的序列；然后每个N-gram和word都被表示为一个二元向量。
TF-IDF Model：是一种词袋模型，没有表示词序列；其值随着词在文档中出现的次数增加而增加，随着词在语料库中的次数的增加而减少。
Paragraph Vector Model：对不同长度的文本如句子和文档，用无监督的方法，训练一个固定长度的向量。Doc2Vec 和 FastText。

NLP的初级神经网络模型

全连接前馈神经网络，一种非线性的学习器
利用与训练好的词向量的全连接前馈神经网络
多层前馈神经网络
卷积和池化框架
递归和循环神经网络

神经概率语言模型

多层概率神经网络语言模型

段落和稳当的多层神经自编码器