在段落向量建模中,他们将段落作为记忆信息,与上下文词一起用于预测目标词。我不明白为什么段落将成为预测目标词的有用信息。 段落是否应包含目标词? 1
有谁能举例说明怎么做?什么是D?段落ID也是一个热门段落矢量吗?
例如,我有段落A,B,C和单词a,b,c,d,e,f,g。 B段是abcdefg的序列。 该文件是A + B + C. 如果我想训练这个文件,我想预测单词d。 这里的输入段落是什么? 我知道输入的单词应该是a,b,c,e,f,g的热词矢量,如果窗口大小是7。
答案 0 :(得分:1)
您发布的图片来自Quoc Le和Tomas Mikolov的纸质分布式句子和文件。您可以在2.2节中找到段落向量的详细说明。
在训练单词嵌入时,我们通常从某个单词的邻域中取出单词的向量。使用段落嵌入时,您可以将其视为为我们处理的每个训练样本添加一个单词。这就像描述整个段落的更全局的词汇,而不仅仅是被选为上下文的几个词。
段落的表示与单词的表示相同。您正在编码要使用单热矢量的段落,并且在处理语料库时正在训练段落嵌入本身。在训练期间,您可以再次将其视为插入到给定段落的每个上下文中的隐藏单词。
计算隐藏层中的值时,可以使用加法或者隐藏法。我提到的论文是使用了一个概念,因此得到的向量是一个半段向量,一半是从单词嵌入计算出来的。