H2O - 余额等级 - 交叉验证

时间:2018-02-15 10:32:55

标签: machine-learning cross-validation h2o gbm rebalancing

我想用H2O建立一个GBM模型。我的数据集是不平衡的,所以我使用的是balance_classes参数。对于网格搜索(参数调整),我想使用5倍交叉验证。我想知道在这种情况下H2O如何处理类平衡。只会重新平衡训练折叠吗?我想确保测试折叠没有重新平衡。

谢谢。

2 个答案:

答案 0 :(得分:4)

在类不平衡设置中,人为地平衡测试/验证集没有任何意义:这些集必须保持逼真,即你想在真实世界环境中测试你的分类器性能,其中,比方说,负面类别将包括99%的样本,以便了解您的模型在预测1%的正面兴趣类别中有多好,而不会有太多的误报。人为地夸大少数民族或减少大多数人将导致不切实际的绩效指标,与你试图解决的现实世界问题没有真正的关系。

重新平衡仅在训练集中才有意义,以防止分类器简单而天真地将所有实例分类为对于99%的感知准确度为负。

因此,您可以放心,在您所描述的设置中,重新平衡仅对训练集/折叠采取行动。

答案 1 :(得分:0)

强制平衡的一种方法是使用权重列为不同的类使用不同的权重,在H2O中weights_column