我正在尝试自行在python中实现elbow方法,以获取最佳数量的群集。 因此,我总结了不同k均值游程的惯性:
sum_squared_dist = []
K = range(1,30)
for k in K:
km = KMeans(n_clusters=k, random_state=0)
km = km.fit(normalized_modeling_data)
sum_squared_dist.append(km.inertia_)
plt.plot(K, sum_squared_dist, 'bx-')
plt.xlabel('number of clusters k')
plt.ylabel('Sum of squared distances')
plt.show
因此,下一种方法是在曲线开始变平时找到点(这应该意味着第一个导数正在下降)。 numpy或scikit-learn中是否有内置方法来计算数组的派生值?