gensim如何计算doc2vec段落向量

时间:2016-11-04 01:18:03

标签: nlp vectorization gensim word2vec doc2vec

我将继续阅读本文http://cs.stanford.edu/~quocle/paragraph_vector.pdf

并说明

  

“段向量和单词向量被平均或连接   预测上下文中的下一个单词。在实验中,我们使用   连接作为组合向量的方法。“

串联或平均如何工作?

示例(如果第1段包含word1和word2):

word1 vector =[0.1,0.2,0.3]
word2 vector =[0.4,0.5,0.6]

concat method 
does paragraph vector = [0.1+0.4,0.2+0.5,0.3+0.6] ?

Average method 
does paragraph vector = [(0.1+0.4)/2,(0.2+0.5)/2,(0.3+0.6)/2] ?

同样来自这张图片:

据说:

  

段落标记可以被认为是另一个单词。它充当了一个   记住当前上下文中缺少的内存 - 或者   该段的主题。出于这个原因,我们经常称这个模型   段落向量的分布式记忆模型(PV-DM)。

段落标记是否等于段落向量等于on

enter image description here

2 个答案:

答案 0 :(得分:5)

  

串联或平均如何工作?

你的平均水平是正确的。串联是:[0.1,0.2,0.3,0.4,0.5,0.6]

  

段落标记是否等于段落向量,它等于on?

"段落标记"被映射到一个被称为"段向量"的向量。它与令牌" on"不同,与令牌" on"的字矢量不同。被映射到。

答案 1 :(得分:4)

一系列文本的简单(有时是有用的)向量是文本单词'向量的总和或平均值 - 但是不是“段落向量”的“段落向量”纸是。

相反,段落向量是另一个向量,与单词向量类似地训练,也可以调整以帮助进行单词预测。将这些矢量与单词矢量组合(或交织)以馈送预测模型。也就是说,平均(在DM模式下)包括PV和字向量 - 它不是从字向量组成PV。

在图中,on是预测的目标词,在该图中由紧密相邻的单词和完整示例的PV组合而成,这些PV可能被非正式地认为是特殊的伪词,在整个文本示例中,参与真实单词的所有滑动“窗口”。