Question

我正在阅读“统计学习简介”一书。这本书说：

更一般地说，假设我们观察到定量响应Y和一组预测变量X1，X2，...... Xn。

我们假设Y和X之间存在某种关系（X1，X2，... Xn），它们可以用非常一般的形式写成：

Y = f（X）+ e

这里，f是X的一些固定但未知的函数，e是随机误差项，它与X无关，平均为零。

我想知道零均值是什么意思？

Answer 1

我想知道零均值是什么意思？

这意味着，被视为随机变量的e具有期望值0.换句话说，如果计算这些误差的平均值，那么随着样本集增长到无穷大 - 它将收敛到零。

在更实际的术语中，它只是意味着你的噪音不会改变你的f（x）函数，但是如果你观察到一些积极的＆＃34;噪音，完全相同的观察概率＆＃34;负面＆＃34;同样强度的噪音。请注意，如果您e的平均值为m，则表示

E[f(x) + e] = E[f(x)] + E[e] = E[f(x)] + m

因此对于每一个点＆＃34; x＆＃34;你会期望观察到值f（x）+ m而不仅仅是f（x）。因此它与建模

相同

g(x) + e'

，其中

g(x) = f(x) + m

和e'现在是零均值随机噪音。因此，整个统计设置对于非零平均噪声仍然有效，但是你的任务（ML正在解决）不是为了建模＆＃34; f＆＃34;但是＆＃34; g＆＃34;代替。

Answer 2

让我们举例说明您的错误是正常分布的，因为在介绍性设置中我们经常做出这样的假设。如果您愿意接受这一点，那么另一种思考零均值误差的方法就是说您的结果变量Y本身是一个随机变量，其分布类似于N（f（X），sigma ^ 2）。换句话说，结果就像是以f（X）为中心的一些概率分布的随机抽取。请注意，如果您观察到的每个Y都有不同的X，那么您将看到f（X）的值发生变化，因此生成每个观察到的结果Y的正态分布也会发生变化。然而，所有观察都被基本规则（f）联系在一起，关于如何将特征（即你的X数据）分配给产生结果的分布。

错误术语e

2 个答案: