为什么在线性回归中使用多个要素?

时间:2015-07-20 21:20:21

标签: machine-learning linear-regression

线性回归定义Y是X的函数。使用此函数可以在X出现之前使用X的值来预测Y(忽略异常值)。

单变量线性回归仅取决于一个变量。但更强大的形式是多变量线性回归,而不是仅使用一个参数:X,使用多个参数。这不能在X,Y平面上可视化,引入3个参数可能是可视化的,但4,5,6个参数(维度)不能。

使用更多参数的想法将提供更好的预测。这是什么基础?为什么使用多个功能可以提高预测质量?直观地,我理解对问题的了解越多,那么就可以进行更准确的预测。但是为什么添加更多功能,或者换句话说尺寸会增加功能的准确性呢?这是否存在正式定义?

或者它只是试验和错误 - 一个功能可能已足够但在使用多个功能进行测试之前无法确定。

2 个答案:

答案 0 :(得分:0)

正式证据非常简单。 映射f的性质无法表示为功能的函数。您只能得到一些近似值,并添加更多变量始终扩展可能的近似值的空间(更严格 - 永不减少)。虽然在这个新空间中找到一个好的近似值可能实际上更难(因此所有已知算法都会失败),但存在的可能性总是更大。通常 - 如果您可以创建一组完美的功能,例如......输出值本身 - 那么添加任何内容都会降低模型的质量。但在现实生活中 - 我们作为人类 - 无法找到如此好的预测因子,因此我们盲目地从真实中获得可以获得的东西,并作为一个简单的随机猜测 - 每一条额外的信息可能都是有用的。

如果您更喜欢更多的数学解法,请考虑f是未知特征集的函数

f(x1, ..., xm) e R

现在您可以测量原始信号r1, r2, ...的某些无限空间中的特征,并且对于原始信号的每个子集,都有f的这些真实特征的映射,但具有不同程度的正确性,所以你有g1(r1, r2, r3) = (x1+er1, 0, x3+er3, ...); g2(r1) = (0, 0, x3+er4, ...)等等。你正在尝试将原始信号的一些有限子集中的函数构建到R,这将近似f,因此你包含的r量更大,你有更好的机会捕捉这些元素,这将使f近似成为可能。不幸的是 - 您可以添加许多冗余信号,或那些与真实功能完全不相关的信号。这可能被视为偏差 - 方差的一个重大问题。您添加的功能越多,假设您在整个可能的信号范围内执行此操作(因此您实际上可以找到与f的性质真正相关的内容),您将引入的方差越多。而另一方面 - 一小组功能会引入高偏差(由于对所需信号的强烈假设,以及它们与真实特征的相关性)。

特别是,线性回归不适合处理高度相关的信号,因此对于这种特定的统计模型,添加新信号会很快导致破坏模型。 LR有一个强有力的潜在假设,f是所有预测变量的线性模型,直到正态分布误差,每个维度之间的方差相等

答案 1 :(得分:0)

仅仅补充一下@lejlot所说的内容,我会说越来越多的功能并不总是会增加建模正确回归模型的概率,因为有可能过度拟合训练模型。而是找到彼此独立的特征,并且仍然有助于整体模型。

我建议这篇文章更多地了解线性回归以及更多功能如何提供帮助:

http://cs229.stanford.edu/notes/cs229-notes1.pdf