XGBoost-应该标记国家(地区)功能或一种热编码?

时间:2019-04-15 11:18:11

标签: model xgboost feature-selection

我们在模型中具有国家/地区的特征,并且正在使用标签编码器,例如:

BEL-1, 美国-2 ENG-3,

等...

XGBoost模型的最佳实践是什么-将其用作数字或对此执行一次热编码?

谢谢, 塔尔

1 个答案:

答案 0 :(得分:0)

没有黄金标准。

OHE更安全,因为它不会将人工订单引入类别。不利的一面是,它增加了具有多个唯一值的要素的内存占用,并且树可能会在数字要素的拆分与成群的新OHE功能之间找到平衡。标签编码(通常基于kaggle竞争)的性能通常优于或优于OHE。

为什么不同时尝试两种方法,然后选择一种可以在交叉验证中为您提供更好的评​​估指标的评估指标?这样,您可以将此选择视为另一种要素工程。请注意,您可能需要分别针对这两种方案运行超参数优化,因为在某些情况下,树深之类的参数可能会大不相同。