所以我有以下数据框:
id text
342 text sample
341 another text sample
343 ...
以及以下代码:
X = tfidf_vectorizer.fit_transform(df['text']).todense()
pca = PCA(n_components=2)
data2D = pca.fit_transform(X)
clusterer = KMeans(n_clusters=n_clusters), random_state=10)
cluster_labels = clusterer.fit_predict(data2D)
silhouette_avg = silhouette_score(data2D, cluster_labels)
print(silhouette_avg)
y_lower = 10
for i in range(n_clusters):
# here I would like to get the id's of each item per cluster
# so that I know which list of id's falls into which cluster
现在,我如何查看哪个ID属于哪个群集,这可以完成吗?为了“聚类”这些文本文档,我的方法也是正确的吗?
请不要为了保持问题简短而跳过一些代码
答案 0 :(得分:0)
有many ways to perform document classification。 K均值是一种方法。如果要查看数据和用例并探索其他方法,就不可能说出自己在做什么是最好的。
如果您想坚持使用KMeans,建议您再读一次scikit-learn网站上的文档。您将在示例中注意到如何通过调用拟合分类器上的labels_
属性来获得每个点的预测类标签(注意:不是当前的fit_transform
的结果)。 / p>