scikit中的Kernel ridge回归模型中的异常值

时间:2018-11-30 18:14:50

标签: python scikit-learn kernel non-linear-regression

我最近正在尝试使用约1700个数据点训练内核岭回归模型。

我用GridsearchCV选择模型参数:

param_grid = {"alpha": [1e0, 1e-1, 1e-2, 1e-3, 1e-4],
              "gamma": np.logspace(-4, 4,10),
              "kernel":['rbf','laplacian']}
kr = GridSearchCV(KernelRidge(), cv=10, param_grid=param_grid,scoring='r2')

最佳分数为R2 = 0.8,然后我使用此模型拟合完全独立的数据集(在训练过程中未使用),结果如下所示: pic.1

除了大多数数据点都遵循线性关系之外,您还可以看到,还有一些点不在直线范围内。另外要注意的是,这些异常值的x值都明显大于其他点。

有人可以帮我解释这些离群值吗?我还能做些什么来改善我的模型?

谢谢!

0 个答案:

没有答案