Question

所以我有以下数据框：

id     text
342    text sample
341    another text sample
343    ...

以及以下代码：

X = tfidf_vectorizer.fit_transform(df['text']).todense()
pca = PCA(n_components=2)
data2D = pca.fit_transform(X)
clusterer = KMeans(n_clusters=n_clusters), random_state=10)
cluster_labels = clusterer.fit_predict(data2D)
silhouette_avg = silhouette_score(data2D, cluster_labels)
print(silhouette_avg)
y_lower = 10
for i in range(n_clusters):
    # here I would like to get the id's of each item per cluster
    # so that I know which list of id's falls into which cluster

现在，我如何查看哪个ID属于哪个群集，这可以完成吗？为了“聚类”这些文本文档，我的方法也是正确的吗？

请不要为了保持问题简短而跳过一些代码

Answer 1

有many ways to perform document classification。 K均值是一种方法。如果要查看数据和用例并探索其他方法，就不可能说出自己在做什么是最好的。

如果您想坚持使用KMeans，建议您再读一次scikit-learn网站上的文档。您将在示例中注意到如何通过调用拟合分类器上的labels_属性来获得每个点的预测类标签（注意：不是当前的fit_transform的结果）。 / p>

我如何从无监督的文本分类中提取ID

1 个答案: