我在为H2ORandomForestEstimator实现简单平衡方面遇到了问题,我试图重现一个简单的例子,这个例子出自Darren Cook的用R编写的书(' Practical Machine Learning with H2O - 第107页。
在Iris数据集上工作,首先我人为地使目标变量失去平衡,从而切除了维持前120行的维吉尼亚的良好份额。
然后我构建了3个模型,一个vanilla,一个我将balance_classes设置为True,最后一个我将balance_classes设置为True,我输入了一个list_sampling_factors列表来对virginica进行过采样。列表是[1.0,1.0,2.5],指的是按字母顺序排序的列。
我训练它们,然后输出每个火车的混乱矩阵。
我期待第一个输出不平衡,最后两个输出平衡,而我总是得到相同的结果。我检查了the documentation example in Python,我看不出有什么问题(我可能也累了)。
这是我的代码:
Things
这是我的输出:
这是我的预期输出。
我明显错过了什么?提前谢谢。
答案 0 :(得分:2)
你没有遗漏任何东西。 {H}随机森林中可以使用offset_column
,但它实际上并不起作用。该错误记录在here,应该在H2O的下一个稳定版本中修复。对此感到抱歉!
它应该适用于其余的H2O算法(XGBoost除外)。例如,如果您想尝试使用GBM,您会看到它正常工作。