在计算Tibshirani的Gap统计量时,是否存在参考分布中推荐数量的模拟数据集(B)? B = 50? B = 100? B = 500? B = 1000?如果是这样,是否有提及它的良好参考?
答案 0 :(得分:2)
如果我们回到原始出版物[Tibshirani, Walther and Hastie, J. R. Statist. Soc. B 63, 411 (2011)],则作者定义了“ 1-标准误差”规则,以将最优簇数确定为最小 k ,其中< / p>
其中 s_k 是MC仿真校正的标准误差
用于从参考分布中提取的MC样本的 B 副本。
在后一个方程中,平方根项使您可以估计由于MC样本数量而引起的标准偏差的校正,显然,我们有
例如,对于B = 10
,由于MC采样不确定性,标准偏差 s_k 增加5%。如果选择B = 100
,则增加幅度为0.5%。
我想实际上,B = 10
对于许多应用程序可能就足够了。但这需要根据您的实际数据及其底层聚类结构(例如,分离良好的聚类与分离程度较低的聚类的数量)对间隙统计量及其标准偏差进行反复试验。
一些有用的参考(不分先后)
Cross Validated: How should I interpret GAP statistic
The Data Science Lab: Finding the K in K-Means Clustering
Tibshirani, Walther and Hastie, J. R. Statist. Soc. B 63, 411 (2011)