我正在使用gensim的Doc2vec培训一些文件。
我有两种类型的输入:
此外,我想用这个模型来推断大小的句子(10~20个单词)。
我要求澄清我的做法 是训练文件的方法(每个文件的大小各约100个句子),然后推断新的句子是正确的。 ?
或者,我应该只训练句子而不是文件,然后推断新句子。?
答案 0 :(得分:1)
每个语料库和项目目标都不同。您对较大文档进行培训但随后在较短句子上进行推断的方法可能合理,但您必须尝试查看效果如何,然后迭代测试是否可能更短的培训文档(如单句或句组)更好地工作,为了您的具体目标。
请注意,gensim
Doc2Vec
推断通常会从非默认参数中获得 - 尤其是steps
(小于默认值5)或较小的起始alpha
(更像是训练默认值为0.025
),尤其是在较短的文档上。并且,根据原始模型元参数,该推断也可能更好或更差。
另请注意,实施限制意味着在gensim
Word2Vec
/ Doc2Vec
培训中会自动截断超过10,000个令牌的文本。 (如果你有更长的文档,你可以将它们拆分成不到10K的令牌子文档,但是然后为每个子文档重复tags
,以密切模拟使用较长文档的训练效果。)< / p>