应用错误收集

对于tfidf结果矩阵，我想获得最高的tfidf值。我看到了如何为tfidf矢量化器设置最大特征量，但这是针对具有最高tf计数的单词。我想仍然得到tfidf的高值，这可能包括低tf的单词。我查找的一个想法是做tf_idf_matrix.sum(axis=0)之类的事情，它会对列进行总结。这适用于我的代码，但由于113k列，打印不会显示所有。如果我可以使用argsort()之类的内容来访问前K列的总和值，那将会很有帮助。

这个问题源于我is here的原始问题。

原因是我想知道哪些词是我应该看得更接近的词，而不一定是那些频率最高的词。我还想知道“异常”，即可能不会出现在所有或许多文档/帖子中但可能在一个或多个文档中具有高tfidf的单词。如果还有其他方法我应该考虑，我想解释一下。

由于

tf-idf - 访问一个大的稀疏scipy矩阵＆amp;获得最高价值

0 个答案: