我是新手而不是英语,所以在理解Gensim
word2vec
和doc2vec
时遇到一些麻烦。
我认为两者都给我一些与我要求的查询词最相似的词,most_similar()
(训练后)。
如何判断我必须使用word2vec
或doc2vec
?
有人可以用简短的词来解释差异吗?
感谢。
答案 0 :(得分:11)
在word2vec中,您训练找到单词向量,然后在单词之间运行相似性查询。在doc2vec中,您可以标记文本,还可以获得标记向量。例如,您拥有来自不同作者的不同文档,并将作者用作文档上的标记。然后,在doc2vec训练之后,您可以使用相同的矢量aritmetics对作者标签运行相似性查询:即谁是AUTHOR_X
最相似的作者?如果两位作者通常使用相同的单词,那么他们的向量将更接近。 AUTHOR_X
不是一个真正的单词,它只是你所确定的语料库的一部分。因此您无需拥有它或手动将其插入到文本中。 Gensim允许你训练带有或不带有单词向量的doc2vec(即如果你只关心彼此之间的标签相似性)。
以下是关于word2vec基础知识的good presentation以及他们如何以创新的方式使用doc2vec进行产品推荐(related blog post)。
如果你告诉我你要解决的问题,我可以建议哪种方法更合适。