RandomForest分类器中的子样本大小

时间:2018-07-16 21:35:33

标签: scikit-learn random-forest

Random Forest Classifier in Scikit-Learn的文档中说

  

随机森林是一种元估计量,它适合数据集各个子样本上的许多决策树分类器,并使用求平均值来提高预测准确性和控制过度拟合。子样本大小始终与原始输入样本大小相同,但如果bootstrap = True(默认值),则将替换绘制样本

如果训练集大小X具有n个实例,则似乎为每个要训练的决策树选取的每个子样本的大小都将为n。现在,如果Bootstrap == True,则通过替换来获取样本,并且选择一些此类样本似乎在统计上有好处。

但是,如果Bootstrap = False(没有替换而选择的样本),是否意味着每个样本都与训练集相同?这是正确的解释吗?如果是这样,那么每棵树都会得到完全相同的样本吗?那么为什么将其视为一个整体呢?

0 个答案:

没有答案