h2o - h2o数据框枚举类型的内部字符串到整数映射是否始终相同？

在文档中查找h2o的categorical_encoding enum类型，它说

枚举或枚举：保留数据集不变，内部将字符串映射到整数，然后使用这些整数进行拆分-通过序数 nbins_cats太小而无法解析所有级别或通过位组可以完美地进行分组拆分。每个类别都是单独的类别;其名称（或数字）无关。例如，字符串被映射为Enum的整数，您可以拆分{0，1，2，3，4， 5}分别为{0，4，5}和{1,2,3}。

这是否意味着每当我将相同的（在这种情况下）pandas数据帧转换为h2o数据帧时，任何分类enum类型列值中的每个的内部表示都将始终相同（或某种程度上是随机的）？（我认为这样做对在数据框上训练的模型上运行任何实际的预测很有用，但要确保我的理解是正确的。）

作为附带说明，文档的描述是“进行分割”是什么意思？

h2o数据框枚举类型的内部字符串到整数映射是否始终相同？

1 个答案: