我有一个由大约10个独立变量组成的数据集。 (1000行×10列)。
我所知道的所有这些都会对我的目标变量产生积极影响。
一旦我对此进行多元线性回归,我就有负系数。 这是否意味着该属性应该具有负面贡献? 因此我的模型不正确? (因为他们都应该有积极的贡献?)
任何帮助表示赞赏。 谢谢,J
答案 0 :(得分:0)
你的模特很好。它可以有负权重。它们(权重)更多的是相对贡献。它们显示了一个功能与其他功能相比的效果。
负重应该不是问题。这意味着当所有独立要素设置为0
时,相关要素的预期值将小于0。对于某些相关特征,可以预期。例如,如果相关要素的平均值为-ve,则常量为-ve;相反,这里的+ ve值会有问题。
如果数据的相关特征总是正的,那么它也可以具有正值。例如,考虑与依赖特征具有强正相关性的独立特征。
从属特征的值为正值,范围为1-10,
独立特征的值为正值,范围为200-210
。
在这种情况下,回归线可以跨越x=0
和x=200
之间的x轴,这将导致常量的负值。回归线可以从第一个移动到第四象限
答案 1 :(得分:0)
首先,质疑你如何知道变量都是积极的贡献。你如何支持这种说法?其次,你是如何确定10个变量在统计上是独立的?
如果他们不真正独立,那么就有可能看到这种明显的矛盾。虽然十个中的每一个都可能有积极的贡献,但很容易建立一个组合过度贡献的案例。
考虑a,b和c,其中a& c具有轻度正相关,并且b与每个具有更高的相关性。如果其中任何一个增加,则输出增加。但是,如果它们的所有三个增加,那么很可能一个简单的多项式度量将增加太多从a和c增加;由于b随着它们两者增加,给它一个负系数可以用来平衡这种过度贡献。换句话说,由于“胜利球队”太强大,b对对手的缺陷是为了保持比赛的正常平衡。 : - )
这是否澄清了问题? 匹配问题吗?
答案 2 :(得分:0)
最可能的原因是变量之间的相关性,因为系统中的样本量和噪音有限。只有当你收集无限数据然后计算相关性时它才会变为零。样本量越小,估计相关性的误差就越大。
1)尝试计算变量与1000个例子的相关性。 2)我的直觉是你的负重量与正重量相比应该相当小,因为样本量会增加负重量减少的可能性。
好奇你的10个变量是什么,你如何判断它们是独立的?
答案 3 :(得分:0)
这件事发生在我身上。在线性回归中,我具有正相关关系,但权重为负,没有可能的解释,因为数据没有呈现共线性,并且这在解释中无法合理化。根本没有道理。
就我而言,导致此问题的原因是Pandas数据框索引被弄乱了。应用df.reset_index()
后,我有预期的变量行为,问题得以解决。