我如何从无监督的文本分类中提取ID

时间:2018-11-25 22:07:25

标签: python-3.x k-means pca text-classification unsupervised-learning

所以我有以下数据框:

id     text
342    text sample
341    another text sample
343    ...

以及以下代码:

X = tfidf_vectorizer.fit_transform(df['text']).todense()
pca = PCA(n_components=2)
data2D = pca.fit_transform(X)
clusterer = KMeans(n_clusters=n_clusters), random_state=10)
cluster_labels = clusterer.fit_predict(data2D)
silhouette_avg = silhouette_score(data2D, cluster_labels)
print(silhouette_avg)
y_lower = 10
for i in range(n_clusters):
    # here I would like to get the id's of each item per cluster
    # so that I know which list of id's falls into which cluster

现在,我如何查看哪个ID属于哪个群集,这可以完成吗?为了“聚类”这些文本文档,我的方法也是正确的吗?

请不要为了保持问题简短而跳过一些代码

1 个答案:

答案 0 :(得分:0)

many ways to perform document classification。 K均值是一种方法。如果要查看数据和用例并探索其他方法,就不可能说出自己在做什么是最好的。

如果您想坚持使用KMeans,建议您再读一次scikit-learn网站上的文档。您将在示例中注意到如何通过调用拟合分类器上的labels_属性来获得每个点的预测类标签(注意:不是当前的fit_transform的结果)。 / p>