假设我有一个嘈杂的2d数据集,其中一个人观看数据可以很容易地在数据中绘制一条直线,以便最小化均方误差。
该行的模型具有y = mx + b
形式,其中x
是输入值,y
是模型的预测值,m
和{{1训练变量是最小化成本的。
我的问题是,如果我们将一些输入b
插入模型,它将始终输出相同的数字,而不考虑数据的稀疏程度。这样的模型如何预测来自相同输入的不同值?
也许这可以完成从模型行到点的所有错误,进行分布,获取此类分布的预期值,然后将该值添加到x1
?
答案 0 :(得分:0)
如果数据是2d,并且可以用直线完美建模,则没有基于数据或基于统计的理由不声称该过程是完全确定的,并且应该输出一个值。
但是,如果您有更多维度,或者您的拟合不完美(错误最小化但不是0)那么您所追求的是要么预测分布值,要么至少置信度。有许多概率模型可以模拟输出的分布而不是单值。特别是线性回归就是这样,它假设你的预测周围有一个高斯误差,因此一旦你获得MSE“A”就可以有效地从N(mx + b,A)中得出预测 - 你可以很容易地看到退化当A = 0时确定性模型。这些预测在期望中是最佳的,它们只是根据模型“模拟观测”的方式。还有元方法,如果您将预测器视为黑盒子 - 您可以在数据子集上训练多个模型,并将其预测视为样本以适合分布(再次为简单起见,它可能是单个高斯分布)。 p>