在K均值聚类中为每个聚类绘制WordCloud

时间:2019-05-09 01:17:58

标签: python-3.x data-visualization k-means word-cloud

我有一组BOW features,而且我知道使用的是最好的n_clusters。我需要帮助来绘制每个群集的WordCloud,以便我们分析其中的单词每个集群一口气。

请参考任何BOW功能集并使用任何n_cluster,我将把它与我的问题联系起来。

将以下功能视为:

['aa', 'aahhhs', 'aback', 'abandon', 'abates', 'abbott', 'abby', 'abdominal', 'abiding', 'ability']

和3个集群。

1 个答案:

答案 0 :(得分:0)

让我们说您适合您的模型:

from sklearn.cluster import KMeans
kmeans_bow = KMeans(n_clusters=3, n_jobs=-1).fit(X_train_bow)

您拟合的模型将具有属性kmeans_bow.labels_。这基本上可以告诉您哪些数据点已分配给哪些群集。您可能需要使用kmeans_bow.labels_.tolist()

因此,下一步将是使用单词袋矢量器使用features = bow_vect.get_feature_names()获取功能名称,并为其分配上面获得的相应标签。

使用for循环遍历数据,并创建包含与每个标签相对应的单词的列表。只需使用您可能需要的任何自定义,将这些列表作为文本传递给WordCloud类即可。