Question

我正在阅读 Aurelien Geron 的“Hands On Machine Learning”，出现了以下文字：

<块引用>

正如我们所讨论的，随机森林是决策的集合树木，通常通过装袋方法（或有时粘贴），通常将 max_samples 设置为训练的大小设置。

max_samples 参数定义了数据集的多少元素进入每个训练的模型，在这种情况下，进入决策树分类器。我的问题是，这有什么意义？因为理论上，如果我们将整个训练集传递给每个单独的模型，所有模型不都完全相同吗？为了每次都得到完全不同的分类器，用数据集的随机部分训练每个模型不是更有意义吗？所以它可以准确地进行预测。

这是创建随机森林的方式：

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bagging_classifier = BaggingClassifier(
  base_estimator = DecisionTreeClassifier(), # Model to use
  n_estimators=500, # Number of models to train
  max_samples=100, # Amount of samples to train each model (Putting the length of the whole dataset is what he's proposing)
)

随机森林是用整个数据集训练的吗？

0 个答案: