doc2vec是基于word2vec的,word2vec对于计算两个词语的相似度效率比较好,修改了word2vec中的cbow和skip-gram模型,paragraph vector直接得到doc向量。
使用过程
- 1.读取文件,os.walk()遍历文件夹
- 2.构建语料库,分词,过滤停用词。用gensim.models.doc2vec.TaggedDocument() 为文档打tag
- 3.创建model
|
|
- 4.计算相似度
|
|
参考:
- 情感分析利器——Doc2vec
- 基于gensim的Doc2Vec简析
- 参考文献:
GloVe: Global Vectors for Word Representation