Mikolov 2014 Paragraph2Vec模型是否假设句子排序?

时间:2018-02-09 19:40:17

标签: word2vec doc2vec sentence-similarity

在Mikolov 2014关于第2段传感器的论文https://arxiv.org/pdf/1405.4053v2.pdf中,作者是否在PV-DM和PV-DBOW中都假设句子的排序需要有意义?

想象一下,我正在处理一组推文,每条推文都是一个段落。段落/推文不一定有订购关系。训练之后,段落的矢量嵌入是否仍然有意义?

1 个答案:

答案 0 :(得分:1)

每个文档/段落都被视为一个单独的培训单元 - 并且没有明确的方式使相邻文档直接影响文档的向量。因此,文件的排序不一定是自然的。

事实上,您通常希望所有类似的文本示例都聚集在一起 - 例如,所有关于特定主题的内容,或使用某些词汇,在前面或后面所有训练样例。这意味着这些示例都使用相似的alpha学习率进行训练,并影响所有相关单词,而不使用交错偏移示例和其他单词。在所有可能的文档中,其中任何一个都可能使模型略微不平衡/一般。出于这个原因,如果您的自然排序可能不会传播所有主题/词汇单词,那么在训练gensim Doc2Vec(或Word2Vec)模型之前,最好执行文本示例的至少一个初始随机播放。均匀地通过训练语料库。

PV-DM模式(gensim中的默认dm=1模式)确实涉及附近单词的滑动上下文窗口,因此每个示例中的单词接近度很重要。 (不要在每个文本中混淆单词!)