我有100多个String Columns,我需要将它们转换为enum,以便ML模型将这些列标识为类别。
在Pyspark中,没有类别类型(如在Pandas中一样),因此我将所有类别都转换为“字符串”。我不想单击“转换为枚举”> 100次,并且我敢肯定有一种更简便的方法可以执行此任务。任何帮助将不胜感激。
答案 0 :(得分:0)
我找不到编码解决方案。但是找到了一种更简单的方法-将pyspark df保存为hdfs中的实木复合地板,并将其导入到h2o中。所有字符串列均自动识别为Enum。