应用错误收集

我使用 clara算法来聚类R中的地理空间数据。我的数据集大小超过300万次观测，包含经度和纬度变量。我很喜欢R编程。

我使用earth.dist包中的fossil函数作为clara包中cluster函数的metric属性。 metric表示它仅支持"euclidean"或"manahattan"。但是，当我使用earth.dist时，它不会抛出错误或警告。当我检查随机1000个观察样本时，看到差异clara没有给出＆＃34;欧几里德＆＃34;和"earth.dist"距离。我可以使用"earth.dist"作为指标吗？还请解释我为什么不抛出错误。
我还使用 Silhouette Method 来查找群集数量。当我将样本数设置为5时，我发现簇的数量为12，但是当我将样本增加到15时，我得到的簇数为6，输入范围为2到50

我已按照stackoverflow page查找最佳群集数

我的问题：

如何找到最佳样本数？
如何找到最佳群集数？
如何使用clara找到群集的最佳样本大小？我认为samplesize = min(n, 40 + 2k)即最大samplesize = 140当k = 50是非常小的样本，数据集大小超过300万次观察。

验证群集时可以考虑哪些其他方法？为了简单起见，如何验证 clara算法的聚类？

更新1：当我从R中的默认值增加sample = 10和sampsize = 400时，当使用Silhouette Method时，簇的数量会收敛到2。为什么集群数量会聚？算法如何运作？