我正在进行聚类GPS位置。
我有大约4000个数据点,我使用了 Kmeans 聚类算法。
标记是真实的数据位置,而绿色圆圈区域(质心)是kmeans的结果。
您可以看到右上角的群集,受到一些异常值的影响。
是否有任何方法可以摆脱异常值的影响,以找出准确的聚类质心?谢谢
=============================================== =============
我得到的GEOdata格式如下:
distance = Math.sqrt((x1-x2)*(x1-x2) + (y1-y2)*(y1-y2))
我使用的kmeans algo是跟随here。但我把距离改为yum install php-xml
答案 0 :(得分:1)
K-means是这类数据的不良选择。
它对异常值很敏感
它不适用于Haversine距离(不要在地理坐标上使用Euclidean!)
此类数据的热门选择包括DBSCAN和OPTICS。