应用错误收集

如何使用XGBoost feature_importance_进行功能选择

时间：2019-12-22 15:00:38

标签： python-3.x regression xgboost feature-selection

问题

我们获得了连续N个月在各家商店出售的各种类型物品的数量，并要求对指定（物品，商店）对的下个月销售额进行预测。我们还获得了一些元数据，例如每个项目所属的类别。

方法

我正在使用XGBoost，针对前Nm-1个月的销售数据训练模型，并使用上个月的数据作为目标值。我使用的功能是历史销售数据以及一些类别变量，例如商店标识符。我发现，使用 some 分类变量有助于提高总体RMSE准确性（对第N + 1个隐藏月的预测），而使用其他变量会降低得分。

问题

我的问题是：如何选择其他分类变量以提高RMSE准确性？我以为可以将训练有素的XGBoost模型的feature_importance_属性用作指导，但是我的结果表明这行不通。例如，我尝试添加平均商品价格。我发现它的feature_importance_明显高于其他一些变量（包含这些变量时，它们可以提高RMSE准确性）。但是，添加该变量竟然会降低RMSE。

我应该如何解释feature_importance，尤其应该如何使用它来告知功能选择？

0 个答案:

没有答案