线性回归定义Y是X的函数。使用此函数可以在X出现之前使用X的值来预测Y(忽略异常值)。
单变量线性回归仅取决于一个变量。但更强大的形式是多变量线性回归,而不是仅使用一个参数:X,使用多个参数。这不能在X,Y平面上可视化,引入3个参数可能是可视化的,但4,5,6个参数(维度)不能。
使用更多参数的想法将提供更好的预测。这是什么基础?为什么使用多个功能可以提高预测质量?直观地,我理解对问题的了解越多,那么就可以进行更准确的预测。但是为什么添加更多功能,或者换句话说尺寸会增加功能的准确性呢?这是否存在正式定义?
或者它只是试验和错误 - 一个功能可能已足够但在使用多个功能进行测试之前无法确定。
答案 0 :(得分:0)
正式证据非常简单。 映射f的性质无法表示为功能的函数。您只能得到一些近似值,并添加更多变量始终扩展可能的近似值的空间(更严格 - 永不减少)。虽然在这个新空间中找到一个好的近似值可能实际上更难(因此所有已知算法都会失败),但存在的可能性总是更大。通常 - 如果您可以创建一组完美的功能,例如......输出值本身 - 那么添加任何内容都会降低模型的质量。但在现实生活中 - 我们作为人类 - 无法找到如此好的预测因子,因此我们盲目地从真实中获得可以获得的东西,并作为一个简单的随机猜测 - 每一条额外的信息可能都是有用的。
如果您更喜欢更多的数学解法,请考虑f
是未知特征集的函数
f(x1, ..., xm) e R
现在您可以测量原始信号r1, r2, ...
的某些无限空间中的特征,并且对于原始信号的每个子集,都有f
的这些真实特征的映射,但具有不同程度的正确性,所以你有g1(r1, r2, r3) = (x1+er1, 0, x3+er3, ...); g2(r1) = (0, 0, x3+er4, ...)
等等。你正在尝试将原始信号的一些有限子集中的函数构建到R
,这将近似f
,因此你包含的r
量更大,你有更好的机会捕捉这些元素,这将使f
近似成为可能。不幸的是 - 您可以添加许多冗余信号,或那些与真实功能完全不相关的信号。这可能被视为偏差 - 方差的一个重大问题。您添加的功能越多,假设您在整个可能的信号范围内执行此操作(因此您实际上可以找到与f
的性质真正相关的内容),您将引入的方差越多。而另一方面 - 一小组功能会引入高偏差(由于对所需信号的强烈假设,以及它们与真实特征的相关性)。
特别是,线性回归不适合处理高度相关的信号,因此对于这种特定的统计模型,添加新信号会很快导致破坏模型。 LR有一个强有力的潜在假设,f
是所有预测变量的线性模型,直到正态分布误差,每个维度之间的方差相等。
答案 1 :(得分:0)
仅仅补充一下@lejlot所说的内容,我会说越来越多的功能并不总是会增加建模正确回归模型的概率,因为有可能过度拟合训练模型。而是找到彼此独立的特征,并且仍然有助于整体模型。
我建议这篇文章更多地了解线性回归以及更多功能如何提供帮助: