在使用带有TFIDF Transformer的k-means后如何获得每个簇的顶级项?

时间:2016-11-01 22:24:16

标签: python machine-learning scipy scikit-learn k-means

我正在使用scikit-learn k-means算法。在我的例子中,输入文档是术语向量,所以我使用DictVectorizer然后使用TfidfTransformer来规范化数据:

dict_vectorizer = DictVectorizer()
dict_sparse_matrix =dict_vectorizer.fit_transform(doc_term_vectors)
X = TfidfTransformer().fit_transform(dict_sparse_matrix)

一旦k-means算法完成,我想获得每个群集的顶级术语:

order_centroids = km.cluster_centers_.argsort()[:, ::-1]
terms = dict_vectorizer.get_feature_names()

问题在于,在不考虑tf-idf加权的情况下检索“顶部”术语。我知道我想要的东西可以通过使用TfidfVectorizer来实现,但我没有字符串列表作为输入,所以我不能使用它。

0 个答案:

没有答案