Study in IRLAB

Tutorial-for-Word2vec

利用gensim调用word2vec模型

Tutorial about Word2vec for IRLAB by Guoxiu in 2016/12/28

Python2环境配置

gensim安装

下载word2vec模型

  • 常见的模型下载列表,请选择合适的下载即
    可。
  • 实验室已下载好一个wikipedia-pubmed-and-PMC-w2v.bin。

利用gensim调用word2vec模型

  • 进入python环境: $ python
  • 导入gensim:

    1
    import gensim
  • 设置word2vec模型路径:

    1
    word2vec_path='./wikipedia-pubmed-and-PMC-w2v.bin
  • 加载word2vec模型:

    1
    model = gensim.models.Word2Vec.load_word2vec_format(word2vec_path, binary=True) # C binary format
  • 获得某个词的词向量:

    1
    model['computer']
  • 获得和某个词最相似的3个词:

    1
    model.similar_by_word('computer', topn=3, restrict_vocab=None)
  • 获得某两个词的相似度:

    1
    model.similarity('woman', 'man')
  • 其他更多请参见gensim官方API

    !

    补充:gensim在文本处理上有很多有用的包。即gensim大法好!!原生word2vec训练及调用等待以后补充…