我们获得了连续N个月在各家商店出售的各种类型物品的数量,并要求对指定(物品,商店)对的下个月销售额进行预测。我们还获得了一些元数据,例如每个项目所属的类别。
我正在使用XGBoost
,针对前Nm-1个月的销售数据训练模型,并使用上个月的数据作为目标值。我使用的功能是历史销售数据以及一些类别变量,例如商店标识符。我发现,使用 some 分类变量有助于提高总体RMSE准确性(对第N + 1个隐藏月的预测),而使用其他变量会降低得分。
我的问题是:如何选择其他分类变量以提高RMSE准确性?我以为可以将训练有素的XGBoost模型的feature_importance_
属性用作指导,但是我的结果表明这行不通。例如,我尝试添加平均商品价格。我发现它的feature_importance_
明显高于其他一些变量(包含这些变量时,它们可以提高RMSE准确性)。但是,添加该变量竟然会降低RMSE。
我应该如何解释feature_importance
,尤其应该如何使用它来告知功能选择?