我正在使用CKEDITOR.addCss('.collapse { background-color: tan; }');
在分配给特定人员的文档上培训gensim
模型。有1000万份文件和8,000人。我并不关心所有8,000人。我关心一群特定的人(比如1到500之间)。
我感兴趣的人可能每天都在改变,但我永远不需要看全人。最终目标是得到我感兴趣的人的结果向量。我目前正在对分配给特定人员的文档进行模型训练。
我应该在所有1000万份文件上训练模型吗?或者我应该只根据分配给我感兴趣的人的文件来训练模型?如果在所有1000万份文档中训练它是非常重要的,那么我如何才能为我感兴趣的人提供这些向量?
答案 0 :(得分:3)
对所有1000万份文档进行培训是一个好主意,这将有助于您捕捉到单词的一般本质,而不仅仅是在您感兴趣的作者的背景下。此外,它将帮助您你感兴趣的作者集明天会改变。
如果您认为Doc2Vec需要花费大量时间,您还可以使用Fasttext来学习WordEmbedding,并在单词向量上使用简单的平均值或TF-IDF加权平均值来构建DocumentVector。您可以在Fasttext中利用分层softmax(损失函数)的强大功能,将您的训练时间缩短1000倍。