machine-learning - 执行随机森林时的最小观察次数

执行随机森林时的最小观察次数

时间：2013-07-09 09:19:12

标签： machine-learning random-forest sample-size

是否可以将RandomForests应用于非常小的数据集？我有一个包含许多变量的数据集，但每个只有25个观察值。随机森林产生合理的结果，低OOB误差（10-25％）。关于使用的最小观测数量是否有任何经验法则？事实上，其中一个响应变量是不平衡的，如果我要对它进行二次采样，我最终会得到更少的观察结果。提前致谢

1 个答案:

答案 0 :(得分：5)

绝对可以在这些类型的数据集上使用RF（即p> n）。事实上，他们在像基因组学这样的领域中使用RF，其中字段数> = 20000并且只有非常少的行 - 比如10-12。整个问题是弄清楚哪个20k变量构成一个简约标记（即特征选择是整个问题）。

我没有任何关于最小尺寸的ROT，除非你的模型在保留的样本上不能很好地工作（或者Hold-One-Back交叉验证可能在你的情况下运作良好）然后你应该尝试一些东西其他

希望这有帮助