我使用 clara算法来聚类R中的地理空间数据。我的数据集大小超过300万次观测,包含经度和纬度变量。我很喜欢R编程。
earth.dist
包中的fossil
函数作为clara
包中cluster
函数的metric属性。 metric
表示它仅支持"euclidean"
或"manahattan"
。但是,当我使用earth.dist
时,它不会抛出错误或警告。当我检查随机1000个观察样本时,看到差异clara
没有给出"欧几里德"和"earth.dist"
距离。我可以使用"earth.dist"
作为指标吗?还请解释我为什么不抛出错误。 我已按照stackoverflow page查找最佳群集数
我的问题:
clara
找到群集的最佳样本大小?我认为samplesize = min(n, 40 + 2k)
即最大samplesize = 140
当k = 50
是非常小的样本,数据集大小超过300万次观察。 验证群集时可以考虑哪些其他方法?为了简单起见,如何验证 clara算法的聚类?
更新1:当我从R中的默认值增加sample = 10
和sampsize = 400
时,当使用Silhouette Method时,簇的数量会收敛到2。为什么集群数量会聚?算法如何运作?