如何使用XGBoost feature_importance_进行功能选择

时间:2019-12-22 15:00:38

标签: python-3.x regression xgboost feature-selection

问题

我们获得了连续N个月在各家商店出售的各种类型物品的数量,并要求对指定(物品,商店)对的下个月销售额进行预测。我们还获得了一些元数据,例如每个项目所属的类别。

方法

我正在使用XGBoost,针对前Nm-1个月的销售数据训练模型,并使用上个月的数据作为目标值。我使用的功能是历史销售数据以及一些类别变量,例如商店标识符。我发现,使用 some 分类变量有助于提高总体RMSE准确性(对第N + 1个隐藏月的预测),而使用其他变量会降低得分。

问题

我的问题是:如何选择其他分类变量以提高RMSE准确性?我以为可以将训练有素的XGBoost模型的feature_importance_属性用作指导,但是我的结果表明这行不通。例如,我尝试添加平均商品价格。我发现它的feature_importance_明显高于其他一些变量(包含这些变量时,它们可以提高RMSE准确性)。但是,添加该变量竟然会降低RMSE。

我应该如何解释feature_importance,尤其应该如何使用它来告知功能选择?

0 个答案:

没有答案