在H2o Flow中将多个字符串列转换为枚举

时间:2019-07-17 04:15:07

标签: python pyspark h2o

我有100多个String Columns,我需要将它们转换为enum,以便ML模型将这些列标识为类别。

在Pyspark中,没有类别类型(如在Pandas中一样),因此我将所有类别都转换为“字符串”。我不想单击“转换为枚举”> 100次,并且我敢肯定有一种更简便的方法可以执行此任务。任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

我找不到编码解决方案。但是找到了一种更简单的方法-将pyspark df保存为hdfs中的实木复合地板,并将其导入到h2o中。所有字符串列均自动识别为Enum。