如果对文档进行培训并仅对句子进行推断,doc2vec是否有用

时间:2018-06-05 05:38:41

标签: python gensim training-data doc2vec

我正在使用gensim的Doc2vec培训一些文件。

我有两种类型的输入:

  1. 整个英语维基百科:维基百科文章的每篇文章都被视为一篇 doc2vec培训的文件。 (总共约550万篇文章或文件)
  2. 与我的项目相关的一些文档是从一些网站手动准备和收集的。 (约15000份文件) 每个文件的大小约为100个句子。
  3. 此外,我想用这个模型来推断大小的句子(10~20个单词)。

    我要求澄清我的做法 是训练文件的方法(每个文件的大小各约100个句子),然后推断新的句子是正确的。 ?

    或者,我应该只训练句子而不是文件,然后推断新句子。?

1 个答案:

答案 0 :(得分:1)

每个语料库和项目目标都不同。您对较大文档进行培训但随后在较短句子上进行推断的方法可能合理,但您必须尝试查看效果如何,然后迭代测试是否可能更短的培训文档(如单句或句组)更好地工作,为了您的具体目标。

请注意,gensim Doc2Vec推断通常会从非默认参数中获得 - 尤其是steps(小于默认值5)或较小的起始alpha(更像是训练默认值为0.025),尤其是在较短的文档上。并且,根据原始模型元参数,该推断也可能更好或更差。

另请注意,实施限制意味着在gensim Word2Vec / Doc2Vec培训中会自动截断超过10,000个令牌的文本。 (如果你有更长的文档,你可以将它们拆分成不到10K的令牌子文档,但是然后为每个子文档重复tags,以密切模拟使用较长文档的训练效果。)< / p>