我有一个大型数据集,我正在尝试估算该数据集中所有实例的函数f(x)。以下哪种方法更好?
方法1:从数据集中采样N个实例,并对这些N个实例使用bootstrapping来估算f(x)。
方法2: M次采样大型数据集的N个实例。然后计算这些M个样本案例中的每一个的f(x),然后汇总(例如:平均)结果。
答案 0 :(得分:1)
没有一个明确的答案,但通常只使用有关数据集的更多信息的方法更好(不太容易过度拟合)。因此,如果您的决定是"我应该仅使用N个样本,但内部使用M次,或者使用M * N个不同的样本"答案是在没有特定问题的知识的情况下 - 到第二个"。