归一化词频和文档反转频率以改变文档长度以计算余弦相似度

时间:2019-10-24 20:14:16

标签: python scikit-learn nlp tf-idf cosine-similarity

我一直在尝试针对一个查询找到成千上万个文本文档的相似性。而且每个文档的大小都有很大的不同(从20个单词到2000个单词)

我确实提到了问题:tf-idf documents of different length

但这对我没有帮助,因为与保持一组文档的文档进行比较时,余弦值的一部分也很重要。

然后,我遇到了一个很棒的规范化博客:Tf-Idf and Cosine similarity。但是这里的问题是要调整每个文档的TermFreq。

我正在使用sklearn来计算tf-idf。但是现在我正在寻找类似于sklearn的tf-idf性能的实用程序。遍历所有文档以迭代方式计算TF的方法不仅费时,而且效率不高。

任何知识/建议都值得赞赏。

0 个答案:

没有答案