确定doc2vec模型中的维度

时间:2017-09-11 14:12:50

标签: python gensim doc2vec

我创建了一个大小为100维的doc2vec模型。根据我的阅读理解,这些尺寸是我模型的特征。如何确定这些尺寸的确切含义。

1 个答案:

答案 0 :(得分:0)

Doc2Vec背后的'段落向量'算法简单地给出了与其他共同训练的文档向量相比在距离/方向排列方面感兴趣的文档向量。

各个维度没有特定的可解释含义。与Word2Vec一样,可能存在相关项目的“邻域”,某些directions可能会模糊地映射到可理解的概念。

但是这些方向并不直接与坐标空间的垂直尺寸对齐。并且过程中没有任何东西可以帮助您描述这些方向性倾向。 (如果是差分向量,它们往往会出现,就像类比解决问题一样。)

你可以在表格中的'Document Embedding With Paragraph Vectors'论文中看到一个例子,其中(可能)与'Lady Gaga'相似的日本流行艺术家是通过在{{1 }}。也就是说,日本人与美国人之间没有一个维度 - 但是所有方面都存在方向性趋势。