如果我的文本数据逐渐增加,可以使用doc2vec吗?

时间:2016-04-01 15:39:02

标签: twitter text gensim word2vec

我是Doc2vec使用的新手。如果我在开始之前得到一些建议,它将节省很多时间。 我的数据是不断传入的文本数据流(如推文)。为了对这些推文进行聚类,我考虑使用doc2vec将文本内容缩减为固定大小的向量,并使用它来比较文档。 所以在这种情况下,文本数据随着时间的推移而积累,这仍然可以与Doc2Vec一起使用,我可能必须一次又一次地学习模型(可能是!)或者我可以使用一些大型语料库,例如维基百科或大型newscorpus训练Doc2Vec模型。

任何建议都会有所帮助!

先谢谢。

1 个答案:

答案 0 :(得分:1)

gensim Doc2Vec类支持使用新文档调整模型,但可以'推断'并根据学习的模型报告新文档的向量从早期的批量培训。

因此,您可以使用新的推断向量将新文档与旧文档进行比较,或将其提供给经过培训的分类器等。

如果新文档继续到达,特别是如果文档中主题/含义的平衡随着时间的推移而漂移,您可能会在某个时候想要根据旧数据丢弃模型,并根据您的创建新模型更大(或更新近)的数据。

(请注意,来自旧模型和新模型的矢量不会直接比较。训练课程涉及很多随机性,任何一个模型中的维度/方向的含义都有些随意它是相同模型中矢量的相对位置,具有一定的解释力。)