除去异常值后,R2缩小40%

时间:2019-09-08 02:16:22

标签: machine-learning regression outliers

从两个变量中删除几个异常值之后(恰好是15个异常值) R2得分mojego XGBoostaodniżyłaz 93.8%做49.5%。

事实证明,XGBoost是解决我的问题的最佳模型(根据TPOT,网格搜索等选择)

创建最佳模型后,我记得还有一些离群值(它们不是巨大的离群值),在删除它们之后,R2分数从几乎94%降低到45%

# delete outliers
print(dataset.shape)
dataset = dataset[dataset['Landsize'] < 14000]
dataset = dataset[dataset['BuildingArea'] < 1500]
dataset = dataset[dataset['Price'] < 7800000]
print(dataset.shape)

输出:

(9025, 16)
(9010, 16)

下面,我在去除异常值之前和之后放置残差图:

在删除异常值之前:

before

除去异常值后:

after

两个图看起来相似。我应该离开还是删除异常值?我真的不知道该怎么办。

0 个答案:

没有答案