如何在流接口中为autoML使用balance classes选项?

时间:2019-11-02 21:13:21

标签: h2o

我正在尝试在流接口中使用autoML来解决分类问题。

我的响应列是一种枚举数据类型,其值为1和0。

我的数据集确实不平衡,大约0.5%的行的响应为1。

我想尝试“余额类别”选项,但是每次尝试时,程序最终都会引发错误。

如果我选择余额类别选项,是否还需要在class_sampling_factors输入框中输入值?如果是这样,我应该输入什么?

文档说:

“ class_sampling_factors:(DRF,GBM,DL,朴素贝叶斯,AutoML)指定每个类(按字典顺序)的上/下采样比率。默认情况下,在训练过程中自动计算这些比率以获得该类balance。此选项仅适用于分类问题以及启用了balance_classes的情况。“

但是,除非我放入某些内容,否则该函数似乎无法运行。

我尝试输入200.0、1以及1.0,200.0,但似乎都无法正常工作。

1 个答案:

答案 0 :(得分:0)

使用“平衡类别”时,不需要指定“类别采样因子”参数。

我刚刚在H2O 3.26.0.9上进行了验证,您可以成功运行AutoML,并且选中“平衡类”,并使用HIGGS dataset(10k子集)将“类采样因子”留为空白。我还为“类别抽样系数”输入了1.0,0.5,效果也很好。我看不到旧版H2O上报告的任何错误(不确定您使用的是哪个版本),因此错误可能是由其他原因引起的吗?

这是两个选项生成的Flow输出:

enter image description here

enter image description here