随机森林是用整个数据集训练的吗?

时间:2021-07-12 19:56:29

标签: machine-learning scikit-learn random-forest decision-tree

我正在阅读 Aurelien Geron 的“Hands On Machine Learning”,出现了以下文字:

<块引用>

正如我们所讨论的,随机森林是决策的集合 树木,通常通过装袋方法(或有时 粘贴),通常将 max_samples 设置为训练的大小 设置。

max_samples 参数定义了数据集的多少元素进入每个训练的模型,在这种情况下,进入决策树分类器。我的问题是,这有什么意义?因为理论上,如果我们将整个训练集传递给每个单独的模型,所有模型不都完全相同吗?为了每次都得到完全不同的分类器,用数据集的随机部分训练每个模型不是更有意义吗?所以它可以准确地进行预测。

这是创建随机森林的方式:

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bagging_classifier = BaggingClassifier(
  base_estimator = DecisionTreeClassifier(), # Model to use
  n_estimators=500, # Number of models to train
  max_samples=100, # Amount of samples to train each model (Putting the length of the whole dataset is what he's proposing)
)

0 个答案:

没有答案