聚类算法 - 应用于一组地震数据

时间:2013-02-26 07:40:55

标签: algorithm cluster-analysis

所以我希望将聚类算法应用于usgs提供的地球数据。

http://earthquake.usgs.gov/earthquakes/feed/

我的主要目标是根据地震情况确定前10个最危险的地方(根据地震的数量或地震所经历的地震的大小)。

有关于如何做的建议吗?我正在研究k-means然后只取k-means的总和(每个群集中的每个地震幅度加权)来查看最危险的聚类。

我也在ruby中将其写为代码参考。

由于

1 个答案:

答案 0 :(得分:2)

K-means无法很好地处理数据集中的异常值。

此外,它是围绕方差设计的,但纬度和经度的方差并没有多大意义。事实上,k-means无法处理纬度+ -180°环绕。相反,您需要使用大圆距离

因此,尝试使用基于密度的聚类算法,该算法允许您使用距离,例如大圆距离!

阅读维基百科和一本关于聚类分析的好书。