由于我目前正在研究高度不平衡的多类分类问题,因此我正在考虑平衡随机森林(https://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf)。您是否有使用H2O实施平衡随机森林的经验?如果是这样,请您详细说明以下问题:
甚至可以更改在H2O中创建引导程序样本的默认过程以提供平衡的子样本(对于随机森林中的每次迭代,请从少数类中抽取一个引导程序样本。随机抽取相同数量的种情况(通过替换,从多数类中移除)来使每棵树生长的原始数据集?
答案 0 :(得分:0)
H2O的随机森林不执行自举,而是以63.2%的速率采样(这是任何自举样本中唯一行的期望值)。
如果要获取平衡的样本,可以使用可以将参数balance_classes与class_sampling_factors或weights_column一起使用