无偏估计

时间:2014-12-09 16:25:24

标签: machine-learning

我有以下问题。 给定数据集E(例如,包含关于年龄的信息)。 考虑包含年龄<40的E,E1的两个子集,以及包含年龄> = 40的E2。 如果H是使用E1作为训练集的学习方法提供的解,那么E2是否是H的真实误差的无偏估计?

来自Tom Mitchell的机器学习: 任意参数p的估计量Y的估计偏差是E [y] -p。 如果估计偏差为零,我们说Y是p的无偏估计。 为了使误差(h)给出误差v(h)的无偏估计,假设h和样本 S必须独立选择。

我在回答这个问题时遇到了一些麻烦,但我认为这不是一个无偏见的估算器。

1 个答案:

答案 0 :(得分:0)

假设年龄是您预测的(回归或分类的目标),那么明确的答案是否定的。当系统在E1(年龄<40)上训练时,通常,E2(年龄> = 40)是用于估计其误差的偏向数据集。因为训练集不包含验证集的足够变化(除非模型非常简单,如线性)。正确的方法是从E.中随机选择E1和E2。