处理与输出预测无关的功能?

时间:2015-12-05 15:00:56

标签: machine-learning regression correlation linear-regression

我使用多种功能进行回归分析。功能数量是20-23。现在,我检查每个特征与输出变量的相关性。一些特征显示相关系数接近1或-1(高度相关)。一些特征显示相关系数接近0.我的问题是:如果它具有接近0的相关系数,我是否必须删除此功能?或者我可以保留它,唯一的问题是这个功能不会对回归模型产生一些明显的影响,或者会对它产生微弱的影响。或者删除这种功能是必须的吗?

1 个答案:

答案 0 :(得分:2)

简而言之

  • 要素与输出之间的高(绝对)相关性意味着此要素应作为预测器具有价值
  • 功能与输出之间缺乏关联意味着

更多详情

成对相关只能告诉你一件事情如何影响另一件事,它完全没有说明这个特征与他人的关系有多好。因此,如果您的模型不是那么简单,那么您不应该删除变量,因为它们与输出无关)。我会给你一个应该告诉你原因的例子。

考虑下面的样本,我们有2个特征(X,Y)和一个输出值(Z,比如红色是1,黑色是0)

enter image description here

X   Y   Z
1   1   1
1   2   0
1   3   0
2   1   0
2   2   1
2   3   0
3   1   0
3   2   0
3   3   1

让我们计算相关性:

  • CORREL(X,Z)= 0
  • CORREL(Y,Z)= 0

所以...我们应该放弃所有价值观?其中之一?如果我们删除任何变量 - 我们的问题变得完全不可能建模! "魔"事实上,实际上有一个隐藏的"数据中的关系。

|X-Y|
0
1
2
1
0
1
2
1
0

  • CORREL(| X-Y |,Z)= -0.8528028654

现在这是一个很好的预测指标!

您实际上可以通过

获得完美的回归量(插值器)
Z = 1 - sign(|X-Y|)