线性回归中的负系数

时间:2016-02-17 18:41:12

标签: machine-learning regression linear-regression

我有一个由大约10个独立变量组成的数据集。 (1000行×10列)。

我所知道的所有这些都会对我的目标变量产生积极影响。

一旦我对此进行多元线性回归,我就有负系数。 这是否意味着该属性应该具有负面贡献? 因此我的模型不正确? (因为他们都应该有积极的贡献?)

任何帮助表示赞赏。 谢谢,J

4 个答案:

答案 0 :(得分:0)

你的模特很好。它可以有负权重。它们(权重)更多的是相对贡献。它们显示了一个功能与其他功能相比的效果。

负重应该不是问题。这意味着当所有独立要素设置为0时,相关要素的预期值将小于0。对于某些相关特征,可以预期。例如,如果相关要素的平均值为-ve,则常量为-ve;相反,这里的+ ve值会有问题。

如果数据的相关特征总是正的,那么它也可以具有正值。例如,考虑与依赖特征具有强正相关性的独立特征。

从属特征的值为正值,范围为1-10,
独立特征的值为正值,范围为200-210

在这种情况下,回归线可以跨越x=0x=200之间的x轴,这将导致常量的负值。回归线可以从第一个移动到第四象限

答案 1 :(得分:0)

首先,质疑你如何知道变量都是积极的贡献。你如何支持这种说法?其次,你是如何确定10个变量在统计上是独立的?

如果他们真正独立,那么就有可能看到这种明显的矛盾。虽然十个中的每一个都可能有积极的贡献,但很容易建立一个组合过度贡献的案例。

考虑a,b和c,其中a& c具有轻度正相关,并且b与每个具有更高的相关性。如果其中任何一个增加,则输出增加。但是,如果它们的所有三个增加,那么很可能一个简单的多项式度量将增加太多从a和c增加;由于b随着它们两者增加,给它一个负系数可以用来平衡这种过度贡献。换句话说,由于“胜利球队”太强大,b对对手的缺陷是为了保持比赛的正常平衡。 : - )

这是否澄清了问题? 匹配问题吗?

答案 2 :(得分:0)

最可能的原因是变量之间的相关性,因为系统中的样本量和噪音有限。只有当你收集无限数据然后计算相关性时它才会变为零。样本量越小,估计相关性的误差就越大。

1)尝试计算变量与1000个例子的相关性。 2)我的直觉是你的负重量与正重量相比应该相当小,因为样本量会增加负重量减少的可能性。

好奇你的10个变量是什么,你如何判断它们是独立的?

答案 3 :(得分:0)

这件事发生在我身上。在线性回归中,我具有正相关关系,但权重为负,没有可能的解释,因为数据没有呈现共线性,并且这在解释中无法合理化。根本没有道理。

就我而言,导致此问题的原因是Pandas数据框索引被弄乱了。应用df.reset_index()后,我有预期的变量行为,问题得以解决。