应用错误收集

时间：2018-08-23 13:09:32

标签： r random-forest h2o multiclass-classification

由于我目前正在研究高度不平衡的多类分类问题，因此我正在考虑平衡随机森林（https://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf）。您是否有使用H2O实施平衡随机森林的经验？如果是这样，请您详细说明以下问题：

甚至可以更改在H2O中创建引导程序样本的默认过程以提供平衡的子样本（对于随机森林中的每次迭代，请从少数类中抽取一个引导程序样本。随机抽取相同数量的种情况（通过替换，从多数类中移除）来使每棵树生长的原始数据集？

答案 0 :(得分：0)

H2O的随机森林不执行自举，而是以63.2％的速率采样（这是任何自举样本中唯一行的期望值）。

如果要获取平衡的样本，可以使用可以将参数balance_classes与class_sampling_factors或weights_column一起使用