Question

我在为H2ORandomForestEstimator实现简单平衡方面遇到了问题，我试图重现一个简单的例子，这个例子出自Darren Cook的用R编写的书（＆＃39; Practical Machine Learning with H2O - 第107页。

在Iris数据集上工作，首先我人为地使目标变量失去平衡，从而切除了维持前120行的维吉尼亚的良好份额。

然后我构建了3个模型，一个vanilla，一个我将balance_classes设置为True，最后一个我将balance_classes设置为True，我输入了一个list_sampling_factors列表来对virginica进行过采样。列表是[1.0,1.0,2.5]，指的是按字母顺序排序的列。

我训练它们，然后输出每个火车的混乱矩阵。

我期待第一个输出不平衡，最后两个输出平衡，而我总是得到相同的结果。我检查了the documentation example in Python，我看不出有什么问题（我可能也累了）。

这是我的代码：

Things

这是我的输出：

my confusion matrices (wrong)

这是我的预期输出。

expected confusion matrices

我明显错过了什么？提前谢谢。

Answer 1

你没有遗漏任何东西。 {H}随机森林中可以使用offset_column，但它实际上并不起作用。该错误记录在here，应该在H2O的下一个稳定版本中修复。对此感到抱歉！

它应该适用于其余的H2O算法（XGBoost除外）。例如，如果您想尝试使用GBM，您会看到它正常工作。

h2o python平衡类

1 个答案: