从两个变量中删除几个异常值之后(恰好是15个异常值) R2得分mojego XGBoostaodniżyłaz 93.8%做49.5%。
事实证明,XGBoost是解决我的问题的最佳模型(根据TPOT,网格搜索等选择)
创建最佳模型后,我记得还有一些离群值(它们不是巨大的离群值),在删除它们之后,R2分数从几乎94%降低到45%
# delete outliers
print(dataset.shape)
dataset = dataset[dataset['Landsize'] < 14000]
dataset = dataset[dataset['BuildingArea'] < 1500]
dataset = dataset[dataset['Price'] < 7800000]
print(dataset.shape)
输出:
(9025, 16)
(9010, 16)
下面,我在去除异常值之前和之后放置残差图:
在删除异常值之前:
除去异常值后:
两个图看起来相似。我应该离开还是删除异常值?我真的不知道该怎么办。