单词矢量和段落矢量查询

时间:2016-11-07 18:30:21

标签: similarity gensim word2vec temporal doc2vec

我试图理解Gensim实现中word2vec和doc2vec向量之间的关系。在我的应用程序中,我使用相同的标签(主题)标记多个文档,我正在使用dbow_words = 1在我的语料库上训练doc2vec模型,以便训练单词向量。我已经能够以这种方式获得单词和文档向量之间的相似性,这确实很有意义 对于前者获取类似于文字的文件标签 - doc2vec_model.docvecs.most_similar(positive = [doc2vec_model [“management”]],topn = 50))

然而,我的问题是关于word2vec和doc2vec向量之间计算相似性的理论解释。假设当在具有相同维度(d = 200)的相同语料库上训练时,可以总是比较单词向量和文档向量以找到文档标签的相似单词或单词的类似文档标签。任何建议/想法都是最受欢迎的。

问题2:我的其他问题是关于最终word2vec模型中单词的高/低频率的影响。如果wordA和wordB在文档的特定doc标签(集合)中具有相似的上下文但是wordA具有比wordB高得多的频率,则wordB与相应的doc标签具有更高的相似性得分。我试图通过以时间方式采样语料库来训练多个word2vec模型,并且想要知道假设作为单词变得越来越频繁,假设上下文相对保持相似,与文档标签的相似性得分也将增加。我做错了这个假设吗?任何建议/想法都非常受欢迎。

谢谢, 和Manish

1 个答案:

答案 0 :(得分:1)

在培训模式中,单词矢量和doctag-矢量在训练期间可互换使用,对于相同的周围单词预测任务,它们往往具有可比性。 (您的模式,带有交错式跳过单词训练的DBOW适合这种情况,并且是本文使用的模式' Document Embedding with Paragraph Vectors'。

你的第二个问题是抽象的和推测的;我认为你必须自己测试这些想法。 Word2Vec / Doc2Vec过程训练向量以擅长某些机械词预测任务,受制于模型的约束和与其他向量的权衡'质量。由此产生的空间排列恰好可用于其他目的 - 排名/绝对相似性,沿某些概念线的相似性,分类等 - 然后才是观察到的,实用的好处。这是一个有效的技巧,并且可能会产生见解,但是模型在响应不同的参数选择或语料库特征时发生变化的许多方式尚未在理论上或实验上得到解决。