如何使用Flow考虑response_column int或Enum类型

时间:2017-06-02 23:17:10

标签: h2o

h2o中的大多数算法都在response_column中有约束。对于其中一些,它必须仅是Enum类型变量,而对于其他变量int。我上传了一个数据集,其response_column的值为0,1,因此可以轻松转换为Enum。然后由于某些算法的这种约束,我可以使用response_column的原始类型,但是为了测试我需要将其转换为Enum的其他算法。

我试图创建一个额外的列,例如outputAsEnum,但我找不到如何根据现有列创建其他列的方法。我试图创建一个原始数据框的副本,但我没有找到这样做的选项。

有没有一种简单的方法可以让Flow考虑多个算法用于相同的输出变量,但之前是否正确转换? (到Enumint

我也注意到,为了平衡response_column的类,列类型必须是Enum。有没有办法绕过这个?基于此,如果我有不平衡数据,我被迫只使用可以使用Enum数据类型的算法。这只是一个示例,还有其他配置参数取决于response_column的数据类型。

1 个答案:

答案 0 :(得分:2)

使用我们的Python / R API可以轻松实现第一部分 - Flow更适合尝试H2O,执行非常基本的操作 - 您必须准备数据集,使其具有相同的列两次或上传相同的数据集两次。如果您将某些算法作为回归问题运行而其他算法作为分类运行,那么这应该只是一个问题。

关于第二个问题 - 不,重新平衡仅支持二项式/多项式问题(我们通过某些类的低于/过度采样来实现它。)