我正在尝试了解优点/缺点,以及何时使用带有参数'categorical_encoding'的h2o中可用的各种编码选项。
如果人们可以就如何使用它指出一般的经验法则,将很有帮助。
通常,我使用'Enum'值,因为我喜欢在查看功能重要性时如何将所有类别值组合在一起。另一方面,我相信xgboost的默认值是'label-encoder',它按类别级别/值进行分类。
不幸的是,我真的不知道从哪里开始,或者不知道这些其他可用值是否可以提出疑问:
同样,我主要坚持枚举,有时坚持使用标签编码器,但老实说,我不知道这些各种选择的实际含义。希望能从一个知识渊博的人那里获得一个何时比另一个人更好的广义理解!
答案 0 :(得分:0)
根据要求(谢谢!),该问题已重新发布至交叉验证。因此,有关优缺点的答案可在https://stats.stackexchange.com/questions/376203/categorical-encoding-in-h2o-what-is-the-difference-between-the-options
中找到