我在学校的机器学习课程中无法理解讲座幻灯片
为什么Y = f(X)的期望值?这是什么意思
我的理解是X,Y是向量而f(X)输出Y的向量,其中Y向量中的每个单独的值(y_i)对应于f(x_i),其中x_i是索引i处的X中的值;但是现在它取Y的预期值,这将是一个单独的值,那么它如何等于f(X)?
X,Y(大写)是向量
x_i,y_i(带下标的小写)是X,Y中索引i处的标量
答案 0 :(得分:3)
这里有很多混乱。首先让我们从定义
开始期望运算符E [。]:将随机变量作为输入,并将标量/向量作为输出。假设Y是一个正态分布的随机变量,其平均值为Mu和方差Sigma ^ {2}(通常表示为: Y~N(Mu,Sigma ^ {2}),然后E [Y] = Mu
函数f(。):采用标量/向量(不是随机变量)并给出标量/向量。在这种情况下,它是一个仿射函数,即f(X)= a * X + b,其中a和b是固定常数。
现在您可以从两个角度查看线性回归。
一个角度假设您的响应变量-Y-是正态分布的随机变量,因为:
Y~a * X + b + epsilon
,其中
epsilon~N(0,sigma ^ sq)
和X是其他一些发行版。我们并不关心X如何分配并将其视为给定的。在这种情况下,条件分布是
Y | X~N(a * X + b,sigma ^ sq)
请注意,a,b 以及 X是一个数字,没有与之关联的随机性。
另一个视图是数学视图,我假设有一个函数f(。)控制着现实生活过程,如果在现实生活中我观察X,那么f(X)应该是输出。当然情况并非如此,并且假设偏差是由于诸如规格误差等各种原因造成的。声称该函数是线性的: f(X)= a * X + b
现在我们如何结合这些?那么,如下: E [Y | X] = a * X + b = f(X)
关于你的问题,我首先要挑战它应该是Y | X而不是Y本身。
其次,关于每个术语在现实生活中代表什么,有很多可能的本体论讨论。 X,Y(大写)可以是向量。 X,Y(大写)也可以是随机变量。这些随机变量的样本可能存储在向量中,两者都用大写字母表示(最好的方法是为每个变量使用不同的字体)。在这种情况下,您的样本将成为您的数据。关于模型的一般观点及其与现实生活的相关性的讨论应该在随机变量层面进行。推断参数的方法,线性回归算法如何工作应该在矩阵和向量水平上进行。可能还有其他讨论你应该关心它们。
我希望这个过于无组织的答案可以帮到你。一般来说,如果你想学习这些东西,一定要知道你正在处理什么样的数学对象和操作符,它们作为输入的内容以及它们与现实生活的相关性。