如何在空间中将差的采样区域聚集在一起

时间:2015-10-23 10:02:15

标签: r cluster-analysis geospatial hierarchical-clustering

我的数据集包括在约150个港口拍摄的15000个鱼市样本。不幸的是,抽样分布不均匀,有些港口有1-10个样本,其他有1000个样本。我想将这些港口汇总在一起,以便我实现以下两个目标:

  1. 地理上彼此靠近的港口聚集在一起
  2. 最终的簇都具有大致相似的采样密度,例如1000个样本
  3. 项目#1可以使用基于距离的标准聚类自行完成。但是我怎样才能在此基础上实现#2 ..?我应该关注哪些工具/方法? (最好是R)

1 个答案:

答案 0 :(得分:0)

构建聚类算法以查找数据中的结构。

任何将“拆分”港口数据并合并附近港口的聚类算法都会失败来检测此结构。

因此,对于群集,您正在选择错误的工具。如果您根本没有港口信息(但是您有这些数据),使用群集来分割您的数据是合理的。群集关心群集的大小相同:它强调结构,而不是大小。