Sklearn如何从每个主题中获取10个单词

时间:2018-11-07 16:12:51

标签: python matrix tf-idf

我想从每个主题中获取前10个词频,然后使用TfidfTransformer,我得到:类型为scipy.sparse.csr.csr_matrix

但是我不知道如何从每个列表中获得最高的十个,在数据中,(0,****)表示0列表,直到(5170,*****)表示5170列表

我尝试将其转换为numpy,但失败。

  (0, 19016)    0.024214182003181053
  (0, 28002)    0.03661443306612277
  (0, 6710) 0.02292100371816788
  (0, 27683)    0.013973969726506812
  (0, 27104)    0.02236713272585597
  (0, 6889) 0.0403281034949193
.
.
.
 (5169, 3236)   0.014432449220428715
  (5169, 19134) 0.014346823328868169
  (5169, 32915) 0.002047199186262409
  (5170, 35899) 0.49931779368675605
  (5170, 36444) 0.3479717717856863
  (5170, 15014) 0.5608169649159123

1 个答案:

答案 0 :(得分:0)

您可以使用TfidfVectorizer来公开get_feature_names方法。转换器没有这种方法,但是文档明确指出Vectorizer等于CountVectorizer,后跟转换器。如果您不想使用此功能,那么我认为在矢量化之前您将无法进行查找。

文档中的TfidfVectorizer:https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

编辑:对fit_transform正常稀疏矩阵操作中TfidfVectorizer的输出进行排序和切分。