Question

如何控制用于培训森林中每棵树的子样本的大小？根据scikit-learn的文档：

随机森林是一种符合许多决策的元估算器数据集和使用的各个子样本上的树分类器平均以提高预测精度和控制过拟合。子样本大小始终与原始输入样本相同大小，但如果bootstrap = True，则使用替换绘制样本（默认）。

因此bootstrap允许随机性，但无法找到如何控制子样本的数量。

Answer 1

Scikit-learn不提供此功能，但您可以使用树和包装元分类器的组合使用（较慢）版本轻松获得此选项：

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

clf = BaggingClassifier(base_estimator=DecisionTreeClassifier(), max_samples=0.5)

作为旁注，Breiman的随机森林确实不考虑子样本作为参数，完全依赖于bootstrap，因此大约（1 - 1 / e）样本用于构建每棵树。

Answer 2

实际上，您可以在forest.py中修改 _generate_sample_indices 函数以更改子样本的大小，感谢 fastai lib实现函数 set_rf_samples < / em>为此，看起来像这样

def set_rf_samples(n): """ Changes Scikit learn's random forests to give each tree a random sample of n random rows. """ forest._generate_sample_indices = (lambda rs, n_samples: forest.check_random_state(rs).randint(0, n_samples, n))

您可以将此功能添加到代码中

scikit中的子样本大小 - 学习RandomForestClassifier

2 个答案: