您好,我正在使用Gensim查找文档之间的相似度,因此我对文档进行TF-IDF并计算余弦相似度。当我有新文档时,我可以使用index [tfidf [vec]]计算该文档与先前文档的相似度,但是通过这种方式TF-IDF不会更新,并且在相似度计算中不考虑新词,是否有解决方案来更新TF -IDF很快,而无需重新计算整个矩阵,或者对我的问题来说最好的解决方案是什么?
答案 0 :(得分:0)
我认为这是不可能的。因为当您向语料库添加新文档时,TF-IDF的词汇表将发生变化,并且当词汇表发生变化时,所有TF-IDF值也将发生变化,因此应重新计算整个矩阵。 但是this link可能对您有所帮助。