Gensim:word2vec和doc2vec有什么区别?

时间:2017-03-16 06:54:27

标签: nlp gensim

我是新手而不是英语,所以在理解Gensim word2vecdoc2vec时遇到一些麻烦。

我认为两者都给我一些与我要求的查询词最相似的词,most_similar()(训练后)。

如何判断我必须使用word2vecdoc2vec

有人可以用简短的词来解释差异吗?

感谢。

1 个答案:

答案 0 :(得分:11)

在word2vec中,您训练找到单词向量,然后在单词之间运行相似性查询。在doc2vec中,您可以标记文本,还可以获得标记向量。例如,您拥有来自不同作者的不同文档,并将作者用作文档上的标记。然后,在doc2vec训练之后,您可以使用相同的矢量aritmetics对作者标签运行相似性查询:即谁是AUTHOR_X最相似的作者?如果两位作者通常使用相同的单词,那么他们的向量将更接近。 AUTHOR_X不是一个真正的单词,它只是你所确定的语料库的一部分。因此您无需拥有它或手动将其插入到文本中。 Gensim允许你训练带有或不带有单词向量的doc2vec(即如果你只关心彼此之间的标签相似性)。

以下是关于word2vec基础知识的good presentation以及他们如何以创新的方式使用doc2vec进行产品推荐(related blog post)。

如果你告诉我你要解决的问题,我可以建议哪种方法更合适。