我们在模型中具有国家/地区的特征,并且正在使用标签编码器,例如:
BEL-1, 美国-2 ENG-3,
等...
XGBoost模型的最佳实践是什么-将其用作数字或对此执行一次热编码?
谢谢, 塔尔
答案 0 :(得分:0)
没有黄金标准。
OHE更安全,因为它不会将人工订单引入类别。不利的一面是,它增加了具有多个唯一值的要素的内存占用,并且树可能会在数字要素的拆分与成群的新OHE功能之间找到平衡。标签编码(通常基于kaggle竞争)的性能通常优于或优于OHE。
为什么不同时尝试两种方法,然后选择一种可以在交叉验证中为您提供更好的评估指标的评估指标?这样,您可以将此选择视为另一种要素工程。请注意,您可能需要分别针对这两种方案运行超参数优化,因为在某些情况下,树深之类的参数可能会大不相同。