编码XGBoost回归变量的分类预测变量

时间:2019-01-09 22:49:47

标签: variables encoding

我正在尝试使用xgboost阻止销售。我的变量之一是sales_county。此列中有75个唯一值。我的问题是,此列的最佳编码方法是什么?不能选择一种热编码,因为它将大大增加功能的数量。我当时在考虑标签编码器,但我担心的是XGboost为编码县创建ordinl关系。 county45比county44大,是真的吗? 我也读过有关散列技巧的文章,但我不太了解。 非常感谢您提供有关如何完成此任务的帮助或建议。

0 个答案:

没有答案