doc2vec计算文档相似度

doc2vec是基于word2vec的，word2vec对于计算两个词语的相似度效率比较好，修改了word2vec中的cbow和skip-gram模型，paragraph vector直接得到doc向量。

1
2
3

model = Doc2Vec(size=50, min_count=1, iter=10)
model.build_vocab(corpora_documents)
model.train(corpora_documents)

1
2
3

inferred_vector = model.infer_vector(test_cut_raw_1)
sims = model.docvecs.most_similar([inferred_vector], topn=3)
print sims

参考：