如何决定使用线性回归模型还是非线性回归模型

时间:2015-02-06 10:49:33

标签: statistics data-mining linear-regression non-linear-regression

如何决定使用线性回归模型还是非线性回归模型?

我的目标是预测Y.

如果是简单的 x y 数据集,我可以通过绘制散点图来轻松决定应该使用哪个回归模型。

如果是 x1,x2,...,xn y 等多变量。如何确定必须使用哪种回归模型?也就是说,我将如何决定使用简单的线性模型或非线性模型,如二次曲线,立方体等。

是否有任何技术或统计方法或图形图来推断和决定必须使用哪种回归模型?请指教。

1 个答案:

答案 0 :(得分:1)

这是一个非常复杂的问题。

首先从视觉上开始:如果数据是正态分布的,并且满足经典线性模型的条件,则使用线性模型。我通常首先制作散点图矩阵来观察关系。如果显然关系是非线性的,那么您使用非线性模型。但是,很多时候,我在视觉上检查,假设因素的数量不是太多。 例如,这将是一个非线性模型:

http://otter-rsch.com/admodel/cc1pic.3.gif

但是,如果您想使用数据挖掘(以及计算要求严格的方法),我建议从stepwise regression开始。您所做的是首先设置模型评估标准:例如,可以是R ^ 2。您启动一个没有任何内容的模型,并按顺序添加它们的预测变量或排列,直到您的模型评估标准最大化"。然而,添加新预测器几乎总是会增加R ^ 2,这是一种过度拟合。

解决方案是将数据拆分为培训和测试。您应该根据培训制作模型并评估测试时的平均误差。最佳模型将是最小化测试集上的平均误差的模型。

如果您的数据稀疏,请尝试在模型评估中集成岭或套索回归。

同样,这是一个复杂的问题。答案还取决于您是在构建描述性还是解释性模型。