Doc2Vec无监督培训

时间:2020-03-21 19:29:03

标签: python gensim doc2vec

我需要对Doc2Vec进行无监督训练的两个建议。场景是我有N个文档,每个文档的大小都超过3000个令牌。因此,现在要训练哪种方法更好:

  1. 对整个文档进行培训。
  2. 将文档分成1000个令牌块,然后对其进行训练。

1 个答案:

答案 0 :(得分:1)

您应注意文档中包含超过10000个令牌的文档-这是内部实现限制gensim,并且单个文档中第10000位以上的令牌将被忽略。

但是,是否应该将文档分成1000个令牌块完全取决于哪种数据最适合您的特定数据和目标。如果您有考虑的理由–也许您想获取子文档范围的结果? –那么您应该尝试一下,将结果与替代方法进行比较,并使用效果更好的方法。没有普遍的答案。