Scikit学习谱聚类获得每个簇的项目

时间:2015-10-06 12:54:31

标签: python machine-learning scikit-learn

我正在尝试使用谱聚类对文本文档中存在的术语进行聚类。在进行群集之后,我想获得每个群集中存在的术语。

我尝试的代码如下,

    true_k = 4
    vectorizer = TfidfVectorizer(stop_words='english',decode_error='ignore')
    X = vectorizer.fit_transform(documents)
    terms = vectorizer.get_feature_names()
    model = SpectralClustering(n_clusters=true_k ,eigen_solver='arpack',affinity='nearest_neighbors')
    model.fit(X)

从这里开始,我很难获得每个群集的条款,使用'labels_'没有帮助,因为它只返回群集标签

编辑:已解决,下面的代码完成了这个伎俩,

    print("Terms per cluster:")
    for i in range(true_k):
        print "Cluster %d:" % i,
        T=X[model.labels_==i].indices
        for ind in T:
            print terms[ind]
        print

1 个答案:

答案 0 :(得分:1)

如果我理解正确,您必须先填写模型,即model.fit(X)。要根据拟合的模型访问属于群集X的{​​{1}}元素,请执行k