应用错误收集

时间：2016-11-25 22:43:27

标签： nlp word2vec

在段落向量建模中，他们将段落作为记忆信息，与上下文词一起用于预测目标词。我不明白为什么段落将成为预测目标词的有用信息。段落是否应包含目标词？ 1

有谁能举例说明怎么做？什么是D？段落ID也是一个热门段落矢量吗？

例如，我有段落A，B，C和单词a，b，c，d，e，f，g。 B段是abcdefg的序列。该文件是A + B + C. 如果我想训练这个文件，我想预测单词d。这里的输入段落是什么？我知道输入的单词应该是a，b，c，e，f，g的热词矢量，如果窗口大小是7。

答案 0 :(得分：1)

您发布的图片来自Quoc Le和Tomas Mikolov的纸质分布式句子和文件。您可以在2.2节中找到段落向量的详细说明。

在训练单词嵌入时，我们通常从某个单词的邻域中取出单词的向量。使用段落嵌入时，您可以将其视为为我们处理的每个训练样本添加一个单词。这就像描述整个段落的更全局的词汇，而不仅仅是被选为上下文的几个词。

段落的表示与单词的表示相同。您正在编码要使用单热矢量的段落，并且在处理语料库时正在训练段落嵌入本身。在训练期间，您可以再次将其视为插入到给定段落的每个上下文中的隐藏单词。

计算隐藏层中的值时，可以使用加法或者隐藏法。我提到的论文是使用了一个概念，因此得到的向量是一个半段向量，一半是从单词嵌入计算出来的。