SVR忽略了我的数据集中的“异常值”,而没有捕获更“极端”的值

时间:2015-04-30 01:53:14

标签: python scikit-learn

我正在使用Scikit-learn的SVR来根据一些参数来模拟教授的收入。我的收入分散图和其中一个参数如下所示:

enter image description here

我只显示其中一个参数,因为我不知道如何绘制多维图,但这解释了模型结果的混乱情节。

基本上你看到的是SVR输出只覆盖中档到低档的薪水。对于我用于校准SVR的网格搜索的基本上所有组合都是如此。具体来说,我的网格参数是:

epsilon_svr = [0.01, 0.1, 0.5, 1]
C_svr = [1,3,5]

我的问题是我如何捕获那个上端,并显着改善我的模型,尤其是R ^ 2。我知道SVR倾向于用于异常值检测,并且它可能选择那些点作为异常值,但我如何改进模型拟合。似乎详尽的网格搜索我的7个参数可能不足以完全捕获我的模型?

0 个答案:

没有答案