我正在使用scikit-learn k-means算法。在我的例子中,输入文档是术语向量,所以我使用DictVectorizer然后使用TfidfTransformer来规范化数据:
dict_vectorizer = DictVectorizer()
dict_sparse_matrix =dict_vectorizer.fit_transform(doc_term_vectors)
X = TfidfTransformer().fit_transform(dict_sparse_matrix)
一旦k-means算法完成,我想获得每个群集的顶级术语:
order_centroids = km.cluster_centers_.argsort()[:, ::-1]
terms = dict_vectorizer.get_feature_names()
问题在于,在不考虑tf-idf加权的情况下检索“顶部”术语。我知道我想要的东西可以通过使用TfidfVectorizer来实现,但我没有字符串列表作为输入,所以我不能使用它。