我目前正在解析一些数据,并使用matplotlib绘制它。我使用以下代码生成了以下图形:
n = 10000
num_clusters = 8
cluster_values = kmeans(data, num_clusters=num_clusters)
y = np.random.normal(1, 0.1, n)
py.figure(num=1, figsize=figsize)
py.scatter(data[:n], y, c=cluster_values[:n])
py.title("%s clustering of first %d data points with %d clusters" % (data_label, n, num_clusters))
py.show()
我收集一些收入数据,通过kmeans对其进行聚类,然后使用每个点的聚类索引的颜色图绘制数据。我想要做的是弄清楚颜色和集群索引之间的关系。我想知道,例如,蓝色= 2和绿色= 0.换句话说,我想知道基于它cluster_value
分配点的颜色
至于代码,n=10000
是为了减少点数(我实际上有大约100000,这会减慢我的电脑速度),np.random.normal
可以分散数据