我使用多种功能进行回归分析。功能数量是20-23。现在,我检查每个特征与输出变量的相关性。一些特征显示相关系数接近1或-1(高度相关)。一些特征显示相关系数接近0.我的问题是:如果它具有接近0的相关系数,我是否必须删除此功能?或者我可以保留它,唯一的问题是这个功能不会对回归模型产生一些明显的影响,或者会对它产生微弱的影响。或者删除这种功能是必须的吗?
答案 0 :(得分:2)
成对相关只能告诉你一件事情如何影响另一件事,它完全没有说明这个特征与他人的关系有多好。因此,如果您的模型不是那么简单,那么您不应该删除变量,因为它们与输出无关)。我会给你一个应该告诉你原因的例子。
考虑下面的样本,我们有2个特征(X,Y)和一个输出值(Z,比如红色是1,黑色是0)
X Y Z
1 1 1
1 2 0
1 3 0
2 1 0
2 2 1
2 3 0
3 1 0
3 2 0
3 3 1
让我们计算相关性:
所以...我们应该放弃所有价值观?其中之一?如果我们删除任何变量 - 我们的问题变得完全不可能建模! "魔"事实上,实际上有一个隐藏的"数据中的关系。
|X-Y|
0
1
2
1
0
1
2
1
0
和
现在这是一个很好的预测指标!
您实际上可以通过
获得完美的回归量(插值器)Z = 1 - sign(|X-Y|)