我需要对Doc2Vec进行无监督训练的两个建议。场景是我有N个文档,每个文档的大小都超过3000个令牌。因此,现在要训练哪种方法更好:
答案 0 :(得分:1)
您应注意文档中包含超过10000个令牌的文档-这是内部实现限制gensim
,并且单个文档中第10000位以上的令牌将被忽略。
但是,是否应该将文档分成1000个令牌块完全取决于哪种数据最适合您的特定数据和目标。如果您有考虑的理由–也许您想获取子文档范围的结果? –那么您应该尝试一下,将结果与替代方法进行比较,并使用效果更好的方法。没有普遍的答案。