应用错误收集

时间：2016-01-06 13:46:06

标签： python scikit-learn cluster-analysis

我目前正在使用python包sklearn.cluster对3D坐标点进行一些聚类分析。

我使用了K-mean聚类，它输出了一个计算出来的聚类中心。我真正想要的是该集群的数据点与该集群中所有其他数据点的最小距离。我猜这将是我的数据集中最接近集群中心的点，但由于我的数据集很大，因此使用某种最小化搜索算法并不实际。有关其他聚类方法或其他python脚本的任何建议可以帮助我找到它吗？

答案 0 :(得分：1)

找到距离中心最近的一对只有O（n），所以随着k-means的再次迭代便宜 - 不算太差。

更糟比平均值更糟糕，但是你最好的猜测。

注意：不是最小的平均距离（Euclidean）。

均值是最小二乘最优，它具有最小平方偏差（即欧几里德平方）。

这是均值和中位数之间的差异。 中位数是最核心的数据点;不是那个意思。但找到中位数比计算平均值要贵得多。

要证明最接近均值的点将具有所有数据点的最小平方偏差应该不太难（尝试显示具有较小RMSD的点必须更接近）。