我有一组数字特征来描述不同时间点的现象。为了评估每个特征的个体性能,我执行线性回归并留下一个验证,并计算相关性和误差以评估结果。
因此,对于单个功能,它将类似于:
对于某些变量,两个相关性都非常好(> 0.9),但是当我看一下预测时,我意识到预测都非常接近平均值(要预测的值),所以错误很大。
这怎么可能?
有没有办法解决它?
对于某些技术精度,我使用带有选项“-S 1”的weka线性回归来避免特征选择。
答案 0 :(得分:0)
这似乎是因为我们想要回归的问题不是线性的,我们使用线性方法。然后可能具有良好的相关性和差的错误。这并不意味着回归是错误的或非常糟糕,但你必须非常小心并进一步调查。
无论如何,一种非线性方法可以最大限度地减少错误并最大化相关性。
此外,异常值也会使这个问题发生。