利用gensim调用word2vec模型
Tutorial about Word2vec for IRLAB by Guoxiu in 2016/12/28
Python2环境配置
- 请参照Python 廖雪峰官网
gensim安装
$ pip install --upgrade gensim
- 具体参见gensim Install
下载word2vec模型
- 常见的模型下载列表,请选择合适的下载即
可。 - 实验室已下载好一个wikipedia-pubmed-and-PMC-w2v.bin。
利用gensim调用word2vec模型
- 进入python环境: $ python
导入gensim:
1import gensim设置word2vec模型路径:
1word2vec_path='./wikipedia-pubmed-and-PMC-w2v.bin加载word2vec模型:
1model = gensim.models.Word2Vec.load_word2vec_format(word2vec_path, binary=True) # C binary format获得某个词的词向量:
1model['computer']获得和某个词最相似的3个词:
1model.similar_by_word('computer', topn=3, restrict_vocab=None)获得某两个词的相似度:
1model.similarity('woman', 'man')其他更多请参见gensim官方API
!补充:gensim在文本处理上有很多有用的包。即gensim大法好!!原生word2vec训练及调用等待以后补充…