我仍然无法理解特定估算器实际上的偏差和方差。
我正在使用维基百科上的偏见定义:
如果我们将内核密度估计定义为
但是,如何将其应用于内核密度估算,或者更确切地说是Parzen Windows?有人至少可以让我知道估计的密度f_hat(x)与偏差(和方差)有什么关系?
定性我已经知道,包含整个数据空间的盒子窗口将具有最大偏差并且没有变化,因为估计的密度将仅仅是整个训练数据集的平均值。
答案 0 :(得分:0)
我想我自己已经弄清楚了。在密度估计的情况下,参数theta是...... drumroll ...密度函数f(x)。所以偏见被定义为
偏见= E [f_hat(x)] - f(x)
E [f_hat(x)]项是窗函数的期望值或 mean 。计算它涉及一个简单的积分。
f(x)是数据的 true 密度函数,实际上可能是未知的。