应用错误收集

大数据的Bootstrap采样

时间：2015-07-20 14:23:14

标签： machine-learning statistics sample

我有一个大型数据集，我正在尝试估算该数据集中所有实例的函数f（x）。以下哪种方法更好？

方法1：从数据集中采样N个实例，并对这些N个实例使用bootstrapping来估算f（x）。

方法2： M次采样大型数据集的N个实例。然后计算这些M个样本案例中的每一个的f（x），然后汇总（例如：平均）结果。

1 个答案:

答案 0 :(得分：1)

没有一个明确的答案，但通常只使用有关数据集的更多信息的方法更好（不太容易过度拟合）。因此，如果您的决定是＆＃34;我应该仅使用N个样本，但内部使用M次，或者使用M * N个不同的样本＆＃34;答案是在没有特定问题的知识的情况下 - 到第二个＆＃34;。