应用错误收集

如果我们回到原始出版物[Tibshirani, Walther and Hastie, J. R. Statist. Soc. B 63, 411 (2011)]，则作者定义了“ 1-标准误差”规则，以将最优簇数确定为最小 k ，其中< / p>

其中 s_k 是MC仿真校正的标准误差

用于从参考分布中提取的MC样本的 B 副本。

在后一个方程中，平方根项使您可以估计由于MC样本数量而引起的标准偏差的校正，显然，我们有

例如，对于B = 10，由于MC采样不确定性，标准偏差 s_k 增加5％。如果选择B = 100，则增加幅度为0.5％。

我想实际上，B = 10对于许多应用程序可能就足够了。但这需要根据您的实际数据及其底层聚类结构（例如，分离良好的聚类与分离程度较低的聚类的数量）对间隙统计量及其标准偏差进行反复试验。

一些有用的参考（不分先后）