聚类位置数据会忽略异常值

时间:2016-10-10 13:10:35

标签: javascript machine-learning geometry google-visualization cluster-analysis

我正在进行聚类GPS位置

我有大约4000个数据点,我使用了 Kmeans 聚类算法。

以下是我得到的结果: enter image description here

标记是真实的数据位置,而绿色圆圈区域(质心)是kmeans的结果。

您可以看到右上角的群集,受到一些异常值的影响

是否有任何方法可以摆脱异常值的影响,以找出准确的聚类质心?谢谢

=============================================== =============

我得到的GEOdata格式如下:

distance = Math.sqrt((x1-x2)*(x1-x2) + (y1-y2)*(y1-y2))

我使用的kmeans algo是跟随here。但我把距离改为yum install php-xml

1 个答案:

答案 0 :(得分:1)

K-means是这类数据的不良选择。

  1. 它对异常值很敏感

  2. 它不适用于Haversine距离(不要在地理坐标上使用Euclidean!)

  3. 此类数据的热门选择包括DBSCAN和OPTICS。