我想从每个主题中获取前10个词频,然后使用TfidfTransformer,我得到:类型为scipy.sparse.csr.csr_matrix
但是我不知道如何从每个列表中获得最高的十个,在数据中,(0,****)表示0列表,直到(5170,*****)表示5170列表
我尝试将其转换为numpy,但失败。
(0, 19016) 0.024214182003181053
(0, 28002) 0.03661443306612277
(0, 6710) 0.02292100371816788
(0, 27683) 0.013973969726506812
(0, 27104) 0.02236713272585597
(0, 6889) 0.0403281034949193
.
.
.
(5169, 3236) 0.014432449220428715
(5169, 19134) 0.014346823328868169
(5169, 32915) 0.002047199186262409
(5170, 35899) 0.49931779368675605
(5170, 36444) 0.3479717717856863
(5170, 15014) 0.5608169649159123
答案 0 :(得分:0)
您可以使用TfidfVectorizer
来公开get_feature_names
方法。转换器没有这种方法,但是文档明确指出Vectorizer
等于CountVectorizer
,后跟转换器。如果您不想使用此功能,那么我认为在矢量化之前您将无法进行查找。
文档中的TfidfVectorizer:https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
编辑:对fit_transform
正常稀疏矩阵操作中TfidfVectorizer
的输出进行排序和切分。