所以我希望将聚类算法应用于usgs提供的地球数据。
http://earthquake.usgs.gov/earthquakes/feed/
我的主要目标是根据地震情况确定前10个最危险的地方(根据地震的数量或地震所经历的地震的大小)。
有关于如何做的建议吗?我正在研究k-means然后只取k-means的总和(每个群集中的每个地震幅度加权)来查看最危险的聚类。
我也在ruby中将其写为代码参考。
由于
答案 0 :(得分:2)
K-means无法很好地处理数据集中的异常值。
此外,它是围绕方差设计的,但纬度和经度的方差并没有多大意义。事实上,k-means无法处理纬度+ -180°环绕。相反,您需要使用大圆距离。
因此,尝试使用基于密度的聚类算法,该算法允许您使用距离,例如大圆距离!
阅读维基百科和一本关于聚类分析的好书。