以上图片来自Distributed Representations of Sentences and Documents,该文件介绍了Doc2Vec。我正在使用Gensim的Word2Vec和Doc2Vec的实现,这很棒,但我正在寻找一些问题的清晰度。
dvm
,什么是dvm.docvecs
?我的印象是它是平均或连接的向量,包括所有嵌入和的段落向量d
。这是正确的,还是d?dvm.docvecs
不是d
,可以自行访问吗?怎么样?d
?该文件只说:在我们的Paragraph Vector框架中(见图2),每一个 paragraph被映射到一个唯一的向量,由a表示 矩阵D中的列,每个字也映射到a 唯一向量,由矩阵W中的列表示。
感谢任何潜在客户!
答案 0 :(得分:3)
Doc2Vec模型的docvecs
属性包含训练期间所见的“文档标签”的所有训练向量。 (这些在源代码中也称为“doctags”。)
在最简单的情况下,类似于段落向量文件,每个文本示例(段落)只有序列号整数ID作为其“标记”,从0开始。这将是{{1}的索引对象 - 而docvecs
numpy数组与段落向量论文摘录中的(大写) D 基本相同。
(Gensim还支持使用字符串标记作为文档标记,每个文档使用多个标记,并在许多培训文档中重复标记。对于字符串标记,如果有的话,它们会映射到{{末尾附近的索引) 1}}由dict model.docvecs.doctag_syn0
。)