文本特征提取的神经网络技术调查
少有的文本特征提取的综述by Vineet John from University of Waterloo
除了常见的特征,词性标注、词块、命名实体识别和语义角色标注也算是特征提取。
背景
词性标注(Part-of-Speech Tagging):指对每个词一个独特的标记以表明其语义角色,如名词、动词和副词等;最好的词性标注器是基于分类器;bi-directional dependency network 和 利用 support vector machines and bi-directional Viterbi decoders.
词块识别(Chunking):识别句子中的短语。
命名实体识别(Named Entity Recognition):对句子中的单元进行标注,如人或者地点之类。
语义角色标注(Semantic Role Labeling):标注句子中的语义角色;可以生成句法分析树。
文档向量化
把文档内容转化成数字向量表达
N-gram Model: 在给定一个文本的序列中,选择连续的n个项的序列;然后每个N-gram和word都被表示为一个二元向量。
TF-IDF Model:是一种词袋模型,没有表示词序列;其值随着词在文档中出现的次数增加而增加,随着词在语料库中的次数的增加而减少。
Paragraph Vector Model:对不同长度的文本如句子和文档,用无监督的方法,训练一个固定长度的向量。Doc2Vec 和 FastText。
NLP的初级神经网络模型
- 全连接前馈神经网络,一种非线性的学习器
- 利用与训练好的词向量的全连接前馈神经网络
- 多层前馈神经网络
- 卷积和池化框架
- 递归和循环神经网络