我想在我的情节中添加图例。我有文本文档,我已经使用PCA处理了它们,以便能够绘制2D图形,但是我想有一个图例来说明群集的每种颜色的标签。
我的数据是原始的字符串列表(文本文档),我使用过TFIDFVectorizer,然后使用了PCA。通过应用矢量化器获得的矩阵,我为每一行添加了一个标签,以使该文档所属的组。
我可以从PCA获得带有2d数据的图形,并且颜色是正确的(聚类正确),但是我只想添加一个图例: -颜色为绿色-> doctype1 -红色--> doctype2 -....
data = vectorizer.fit_transform(documents).todense()
pca = PCA(n_components=2).fit(data)
data2D = pca.transform(data)
kmeans = KMeans(n_clusters = 4).fit(data)
clusters = kmeans.labels_.tolist()
y_means = kmeans.predict(data)
plt.scatter(data2D[:,0], data2D[:,1], c=y_means, zorder=0)
# I used n_clusters = 4 cause I know this is the optimum number of clusters
# documents is the list of strings(documents)
# I know I use the same data to predict and fit, it just to have the right colors
谢谢