Question

让我们说我要检查多达10个星团，我常常会产生肘部＆＃39;肘部＆＃39;情节如下：

from scipy import cluster
cluster_array = [cluster.vq.kmeans(my_matrix, i) for i in range(1,10)]

pyplot.plot([var for (cent,var) in cluster_array])
pyplot.show()

我已经开始使用sklearn进行聚类，但是我不确定如何在scipy情况下创建绘制所需的数组。我最好的猜测是：

from sklearn.cluster import KMeans

km = [KMeans(n_clusters=i) for i range(1,10)]
cluster_array = [km[i].fit(my_matrix)]

遗憾的是，导致命令错误无效。 sklearn最好的方式是什么？

谢谢

Answer 1

你可以使用Kmeans类的惯性属性。

假设X是您的数据集：

from sklearn.cluster import KMeans
from matplotlib import pyplot as plt

X = # <your_data>
distorsions = []
for k in range(2, 20):
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(X)
    distorsions.append(kmeans.inertia_)

fig = plt.figure(figsize=(15, 5))
plt.plot(range(2, 20), distorsions)
plt.grid(True)
plt.title('Elbow curve')

Answer 2

您在代码中遇到了一些语法问题。他们现在应该修好：

Ks = range(1, 10)
km = [KMeans(n_clusters=i) for i in Ks]
score = [km[i].fit(my_matrix).score(my_matrix) for i in range(len(km))]

fit方法只返回一个self对象。在原始代码中的这一行

cluster_array = [km[i].fit(my_matrix)]

cluster_array最终会与km具有相同的内容。

您可以使用score方法来估算群集的拟合程度。要查看每个群集的分数，只需运行plot(Ks, score)。

Answer 3

您还可以使用每个数据之间的欧式距离与聚类中心距离来评估选择多少个聚类。这是代码示例。

import numpy as np
from scipy.spatial.distance import cdist
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

iris = load_iris()
x = iris.data

res = list()
n_cluster = range(2,20)
for n in n_cluster:
    kmeans = KMeans(n_clusters=n)
    kmeans.fit(x)
    res.append(np.average(np.min(cdist(x, kmeans.cluster_centers_, 'euclidean'), axis=1)))

plt.plot(n_cluster, res)
plt.title('elbow curve')
plt.show()

Sklearn kmeans相当于肘法

3 个答案: