分析计算Parzen WIndows的偏差

时间:2015-01-17 11:23:27

标签: machine-learning kernel-density probability-density

我仍然无法理解特定估算器实际上的偏差和方差。

我正在使用维基百科上的偏见定义:

Bias of an estimator

如果我们将内核密度估计定义为

Wikipedia definition of kernel density estimate

但是,如何将其应用于内核密度估算,或者更确切地说是Parzen Windows?有人至少可以让我知道估计的密度f_hat(x)与偏差(和方差)有什么关系?

定性我已经知道,包含整个数据空间的盒子窗口将具有最大偏差并且没有变化,因为估计的密度将仅仅是整个训练数据集的平均值。

1 个答案:

答案 0 :(得分:0)

我想我自己已经弄清楚了。在密度估计的情况下,参数theta是...... drumroll ...密度函数f(x)。所以偏见被定义为

偏见= E [f_hat(x)] - f(x)

E [f_hat(x)]项是窗函数的期望值或 mean 。计算它涉及一个简单的积分。

f(x)是数据的 true 密度函数,实际上可能是未知的。