在文档中查找h2o的categorical_encoding enum
类型,它说
枚举或枚举:保留数据集不变,内部将字符串映射到 整数,然后使用这些整数进行拆分-通过序数 nbins_cats太小而无法解析所有级别或通过 位组可以完美地进行分组拆分。每个类别都是单独的 类别;其名称(或数字)无关。例如, 字符串被映射为Enum的整数,您可以拆分{0,1,2,3,4, 5}分别为{0,4,5}和{1,2,3}。
这是否意味着每当我将相同的(在这种情况下)pandas数据帧转换为h2o数据帧时,任何分类enum
类型列值中的每个的内部表示都将始终相同(或某种程度上是随机的)? (我认为这样做对在数据框上训练的模型上运行任何实际的预测很有用,但要确保我的理解是正确的。)
答案 0 :(得分:0)
只要类别级别相同,顺序将相同,并且索引将以相同的方式分配。
拆分是指基于树的模型。