应用错误收集

在word2vec中，您训练找到单词向量，然后在单词之间运行相似性查询。在doc2vec中，您可以标记文本，还可以获得标记向量。例如，您拥有来自不同作者的不同文档，并将作者用作文档上的标记。然后，在doc2vec训练之后，您可以使用相同的矢量aritmetics对作者标签运行相似性查询：即谁是AUTHOR_X最相似的作者？如果两位作者通常使用相同的单词，那么他们的向量将更接近。 AUTHOR_X不是一个真正的单词，它只是你所确定的语料库的一部分。因此您无需拥有它或手动将其插入到文本中。 Gensim允许你训练带有或不带有单词向量的doc2vec（即如果你只关心彼此之间的标签相似性）。

以下是关于word2vec基础知识的good presentation以及他们如何以创新的方式使用doc2vec进行产品推荐（related blog post）。

如果你告诉我你要解决的问题，我可以建议哪种方法更合适。

Gensim：word2vec和doc2vec有什么区别？

1 个答案: