如何在R?

时间:2015-12-28 05:43:35

标签: r cluster-analysis data-mining

我使用 clara算法来聚类R中的地理空间数据。我的数据集大小超过300万次观测,包含经度和纬度变量。我很喜欢R编程。

  1. 我使用earth.dist包中的fossil函数作为clara包中cluster函数的metric属性。 metric表示它仅支持"euclidean""manahattan"。但是,当我使用earth.dist时,它不会抛出错误或警告。当我检查随机1000个观察样本时,看到差异clara没有给出"欧几里德"和"earth.dist"距离。我可以使用"earth.dist"作为指标吗?还请解释我为什么不抛出错误。
  2. 我还使用 Silhouette Method 来查找群集数量。当我将样本数设置为5时,我发现簇的数量为12,但是当我将样本增加到15时,我得到的簇数为6,输入范围为2到50
  3. 我已按照stackoverflow page查找最佳群集数

    我的问题:

    1. 如何找到最佳样本数?
    2. 如何找到最佳群集数?
    3. 如何使用clara找到群集的最佳样本大小?我认为samplesize = min(n, 40 + 2k)即最大samplesize = 140k = 50是非常小的样本,数据集大小超过300万次观察。
    4. 验证群集时可以考虑哪些其他方法?为了简单起见,如何验证 clara算法的聚类?

      更新1:当我从R中的默认值增加sample = 10sampsize = 400时,当使用Silhouette Method时,簇的数量会收敛到2。为什么集群数量会聚?算法如何运作?

0 个答案:

没有答案