h2o python平衡类

时间:2018-03-13 17:30:42

标签: python machine-learning h2o

我在为H2ORandomForestEstimator实现简单平衡方面遇到了问题,我试图重现一个简单的例子,这个例子出自Darren Cook的用R编写的书(' Practical Machine Learning with H2O - 第107页。

在Iris数据集上工作,首先我人为地使目标变量失去平衡,从而切除了维持前120行的维吉尼亚的良好份额。

然后我构建了3个模型,一个vanilla,一个我将balance_classes设置为True,最后一个我将balance_classes设置为True,我输入了一个list_sampling_factors列表来对virginica进行过采样。列表是[1.0,1.0,2.5],指的是按字母顺序排序的列。

我训练它们,然后输出每个火车的混乱矩阵。

我期待第一个输出不平衡,最后两个输出平衡,而我总是得到相同的结果。我检查了the documentation example in Python,我看不出有什么问题(我可能也累了)。

这是我的代码:

Things

这是我的输出:

my confusion matrices (wrong)

这是我的预期输出。

expected confusion matrices

我明显错过了什么?提前谢谢。

1 个答案:

答案 0 :(得分:2)

你没有遗漏任何东西。 {H}随机森林中可以使用offset_column,但它实际上并不起作用。该错误记录在here,应该在H2O的下一个稳定版本中修复。对此感到抱歉!

它应该适用于其余的H2O算法(XGBoost除外)。例如,如果您想尝试使用GBM,您会看到它正常工作。