使用H2O在R中平衡随机森林

时间:2018-08-23 13:09:32

标签: r random-forest h2o multiclass-classification

由于我目前正在研究高度不平衡的多类分类问题,因此我正在考虑平衡随机森林(https://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf)。您是否有使用H2O实施平衡随机森林的经验?如果是这样,请您详细说明以下问题:

甚至可以更改在H2O中创建引导程序样本的默认过程以提供平衡的子样本(对于随机森林中的每次迭代,请从少数类中抽取一个引导程序样本。随机抽取相同数量的种情况(通过替换,从多数类中移除)来使每棵树生长的原始数据集?

1 个答案:

答案 0 :(得分:0)

H2O的随机森林不执行自举,而是以63.2%的速率采样(这是任何自举样本中唯一行的期望值)。

如果要获取平衡的样本,可以使用可以将参数balance_classesclass_sampling_factorsweights_column一起使用