大数据的Bootstrap采样

时间:2015-07-20 14:23:14

标签: machine-learning statistics sample

我有一个大型数据集,我正在尝试估算该数据集中所有实例的函数f(x)。以下哪种方法更好?

方法1:从数据集中采样N个实例,并对这些N个实例使用bootstrapping来估算f(x)。

方法2: M次采样大型数据集的N个实例。然后计算这些M个样本案例中的每一个的f(x),然后汇总(例如:平均)结果。

1 个答案:

答案 0 :(得分:1)

没有一个明确的答案,但通常只使用有关数据集的更多信息的方法更好(不太容易过度拟合)。因此,如果您的决定是"我应该仅使用N个样本,但内部使用M次,或者使用M * N个不同的样本"答案是在没有特定问题的知识的情况下 - 到第二个"。