随机森林是否随机抽样每棵树的数据?

时间:2017-12-13 11:56:57

标签: machine-learning

我感谢bagging随机重新采样每棵树的训练集,随机森林随机选择每棵树的特征子集。

我的问题是随机森林是否也重新采样训练集以及采用随机的特征子集。它实际上是双随机的吗?

1 个答案:

答案 0 :(得分:4)

答案是肯定的,大部分时间,如果你愿意的话。

随机森林引导数据并随机选择功能。 bootstrapping意味着它采样与原始数据集大小相同的数据集,但需要替换。因此,如果你有N个数据点,每个树将使用N个数据点,但有些我会被复制(因为它会逐个替换它们。)

然而,这取决于你做什么。在sklearn实现中,默认是bootstrap,但是你可以标记bootstarp = False,然后你只能选择随机功能。 请参阅此处的文档: http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html