考虑列first_name
- 它可能有一些共同的名称,也可能有很多名称出现一次或两次。如果包含在cat_features=
列表中,CatBoost会对此做些什么?它会创建一个通用名称列表和"其他"名字呢?如果该列有1000个可能的值且只有少数几个常见,该怎么办?
预处理此列是否有意义?如果threshold N
自动完成,那么它是什么?是否可以指定它?如果在测试期间CatBoost会遇到一个在火车上没有发生的类别,会发生什么?它会将它放在others
中还是单独处理?