请,你能帮我吗?我有数值和分类数据。而且我必须预测一个连续的因变量:“区域”。与面积的最大相关性为23%:这是“有效面积”和“平均面积”变量与“面积”的相关性。其他自变量的相关为负或介于0.1%和8%之间。数据的预测变量是多变量的,因此对我来说很难形象化数据。我使用了很多线性回归模型。而且我注意到最好的模型是XGBoost回归器,准确度为53.9%。 这是自变量与“区域”和我的XGBRegressor代码的相关性:
-0.039453
0.234475
-0.017780
-0.025187
0.012989
-0.016103
-0.013953
0.012090
-0.013553
-0.013016
-0.031440
-0.048611
0.236871
-0.079604
-0.104636
0.074033
0.087500
-0.194101
-0.023156
0.005547
-0.002937
-0.002621
-0.002850
-0.002867
-0.001232
0.030332
-0.002723
-0.099967
xgb = xgboost.XGBRegressor(n_estimators=248, learning_rate=0.0799999, gamma=0, subsample=1,
colsample_bytree=0.36, max_depth=8)
xgb.fit(X_train, y_train)
y_pred = xgb.predict(X_test)
r2_score(y_test, y_pred)
知道我已经清理并归一化了所有独立数据,这些数据与“区域”的相关性不够吗?还是我必须重新参数化模型?