间隙统计的建议模拟参考数据集数量

时间:2018-06-25 21:34:08

标签: statistics cluster-analysis montecarlo

在计算Tibshirani的Gap统计量时,是否存在参考分布中推荐数量的模拟数据集(B)? B = 50? B = 100? B = 500? B = 1000?如果是这样,是否有提及它的良好参考?

1 个答案:

答案 0 :(得分:2)

如果我们回到原始出版物[Tibshirani, Walther and Hastie, J. R. Statist. Soc. B 63, 411 (2011)],则作者定义了“ 1-标准误差”规则,以将最优簇数确定为最小 k ,其中< / p>

enter image description here

其中 s_k 是MC仿真校正的标准误差

enter image description here

用于从参考分布中提取的MC样本的 B 副本。

在后一个方程中,平方根项使您可以估计由于MC样本数量而引起的标准偏差的校正,显然,我们有

enter image description here

例如,对于B = 10,由于MC采样不确定性,标准偏差 s_k 增加5%。如果选择B = 100,则增加幅度为0.5%。

我想实际上,B = 10对于许多应用程序可能就足够了。但这需要根据您的实际数据及其底层聚类结构(例如,分离良好的聚类与分离程度较低的聚类的数量)对间隙统计量及其标准偏差进行反复试验。

一些有用的参考(不分先后)

Cross Validated: How should I interpret GAP statistic

The Data Science Lab: Finding the K in K-Means Clustering

Tibshirani, Walther and Hastie, J. R. Statist. Soc. B 63, 411 (2011)