应用错误收集

我一直在尝试针对一个查询找到成千上万个文本文档的相似性。而且每个文档的大小都有很大的不同（从20个单词到2000个单词）

但这对我没有帮助，因为与保持一组文档的文档进行比较时，余弦值的一部分也很重要。

然后，我遇到了一个很棒的规范化博客：Tf-Idf and Cosine similarity。但是这里的问题是要调整每个文档的TermFreq。

我正在使用sklearn来计算tf-idf。但是现在我正在寻找类似于sklearn的tf-idf性能的实用程序。遍历所有文档以迭代方式计算TF的方法不仅费时，而且效率不高。

任何知识/建议都值得赞赏。