应用错误收集

在进行模型选择的交叉验证时，我发现有很多方法可以引用交叉验证分数的“标准偏差”（此处“分数”表示评估指标，例如准确度，AUC，损失等）

1）一种方法是计算K倍数的平均值的标准偏差（= K倍的标准偏差/ sqrt（K））。

2）第二种方法是仅计算K折叠分数的标准差。可以在这里找到一个例子：

3）另一种我不完全理解的方式。它似乎计算K folds / sqrt（N）的标准差，其中N是数据集的大小......

我个人认为1）是正确的，因为我们更关心样本均值的标准误差（此处= K折叠验证的平均分数），而不是样本的标准偏差。谁能解释哪种方式更受欢迎？