什么是gensim' docvecs'?

时间:2017-01-18 00:15:02

标签: python nlp gensim doc2vec

Doc2Vec Figure 2

以上图片来自Distributed Representations of Sentences and Documents,该文件介绍了Doc2Vec。我正在使用Gensim的Word2Vec和Doc2Vec的实现,这很棒,但我正在寻找一些问题的清晰度。

  1. 对于给定的doc2vec模型dvm,什么是dvm.docvecs?我的印象是它是平均或连接的向量,包括所有嵌入的段落向量d。这是正确的,还是d?
  2. 假设dvm.docvecs不是d,可以自行访问吗?怎么样?
  3. 作为奖励,如何计算d?该文件只说:
  4.   

    在我们的Paragraph Vector框架中(见图2),每一个   paragraph被映射到一个唯一的向量,由a表示   矩阵D中的列,每个字也映射到a   唯一向量,由矩阵W中的列表示。

    感谢任何潜在客户!

1 个答案:

答案 0 :(得分:3)

Doc2Vec模型的docvecs属性包含训练期间所见的“文档标签”的所有训练向量。 (这些在源代码中也称为“doctags”。)

在最简单的情况下,类似于段落向量文件,每个文本示例(段落)只有序列号整数ID作为其“标记”,从0开始。这将是{{1}的索引对象 - 而docvecs numpy数组与段落向量论文摘录中的(大写) D 基本相同。

(Gensim还支持使用字符串标记作为文档标记,每个文档使用多个标记,并在许多培训文档中重复标记。对于字符串标记,如果有的话,它们会映射到{{末尾附近的索引) 1}}由dict model.docvecs.doctag_syn0。)