对于tfidf结果矩阵,我想获得最高的tfidf值。我看到了如何为tfidf矢量化器设置最大特征量,但这是针对具有最高tf计数的单词。我想仍然得到tfidf的高值,这可能包括低tf的单词。我查找的一个想法是做tf_idf_matrix.sum(axis=0)
之类的事情,它会对列进行总结。这适用于我的代码,但由于113k列,打印不会显示所有。如果我可以使用argsort()
之类的内容来访问前K列的总和值,那将会很有帮助。
这个问题源于我is here的原始问题。
原因是我想知道哪些词是我应该看得更接近的词,而不一定是那些频率最高的词。我还想知道“异常”,即可能不会出现在所有或许多文档/帖子中但可能在一个或多个文档中具有高tfidf的单词。如果还有其他方法我应该考虑,我想解释一下。
由于