我有一组BOW features
,而且我知道使用的是最好的n_clusters
。我需要帮助来绘制每个群集的WordCloud
,以便我们分析其中的单词每个集群一口气。
请参考任何BOW功能集并使用任何n_cluster,我将把它与我的问题联系起来。
将以下功能视为:
['aa', 'aahhhs', 'aback', 'abandon', 'abates', 'abbott', 'abby', 'abdominal', 'abiding', 'ability']
和3个集群。
答案 0 :(得分:0)
让我们说您适合您的模型:
from sklearn.cluster import KMeans
kmeans_bow = KMeans(n_clusters=3, n_jobs=-1).fit(X_train_bow)
您拟合的模型将具有属性kmeans_bow.labels_
。这基本上可以告诉您哪些数据点已分配给哪些群集。您可能需要使用kmeans_bow.labels_.tolist()
因此,下一步将是使用单词袋矢量器使用features = bow_vect.get_feature_names()
获取功能名称,并为其分配上面获得的相应标签。
使用for循环遍历数据,并创建包含与每个标签相对应的单词的列表。只需使用您可能需要的任何自定义,将这些列表作为文本传递给WordCloud类即可。