我一直在尝试针对一个查询找到成千上万个文本文档的相似性。而且每个文档的大小都有很大的不同(从20个单词到2000个单词)
我确实提到了问题:tf-idf documents of different length
但这对我没有帮助,因为与保持一组文档的文档进行比较时,余弦值的一部分也很重要。
然后,我遇到了一个很棒的规范化博客:Tf-Idf and Cosine similarity。但是这里的问题是要调整每个文档的TermFreq。
我正在使用sklearn
来计算tf-idf。但是现在我正在寻找类似于sklearn的tf-idf性能的实用程序。遍历所有文档以迭代方式计算TF的方法不仅费时,而且效率不高。
任何知识/建议都值得赞赏。