我的数据集包括在约150个港口拍摄的15000个鱼市样本。不幸的是,抽样分布不均匀,有些港口有1-10个样本,其他有1000个样本。我想将这些港口汇总在一起,以便我实现以下两个目标:
项目#1可以使用基于距离的标准聚类自行完成。但是我怎样才能在此基础上实现#2 ..?我应该关注哪些工具/方法? (最好是R)
答案 0 :(得分:0)
构建聚类算法以查找数据中的结构。
任何将“拆分”港口数据并合并附近港口的聚类算法都会失败来检测此结构。
因此,对于群集,您正在选择错误的工具。如果您根本没有港口信息(但是您有这些数据),使用群集来分割您的数据是合理的。群集不关心群集的大小相同:它强调结构,而不是大小。