XGBoost模型准确性问题

时间:2019-06-07 16:08:29

标签: linear-regression correlation xgboost

请,你能帮我吗?我有数值和分类数据。而且我必须预测一个连续的因变量:“区域”。与面积的最大相关性为23%:这是“有效面积”和“平均面积”变量与“面积”的相关性。其他自变量的相关为负或介于0.1%和8%之间。数据的预测变量是多变量的,因此对我来说很难形象化数据。我使用了很多线性回归模型。而且我注意到最好的模型是XGBoost回归器,准确度为53.9%。 这是自变量与“区域”和我的XGBRegressor代码的相关性:

-0.039453
 0.234475
-0.017780
-0.025187
 0.012989
-0.016103
-0.013953
 0.012090
-0.013553
-0.013016
-0.031440
-0.048611
 0.236871
-0.079604
-0.104636
 0.074033
 0.087500
-0.194101
-0.023156
 0.005547
-0.002937
-0.002621
-0.002850
-0.002867
-0.001232
 0.030332
-0.002723
-0.099967

xgb = xgboost.XGBRegressor(n_estimators=248, learning_rate=0.0799999, gamma=0, subsample=1,
                       colsample_bytree=0.36, max_depth=8)
xgb.fit(X_train, y_train)
y_pred = xgb.predict(X_test)
r2_score(y_test, y_pred)

知道我已经清理并归一化了所有独立数据,这些数据与“区域”的相关性不够吗?还是我必须重新参数化模型?

0 个答案:

没有答案