minFample_split和min_sample_leaf在RandomForestClassifier中的作用是什么?

时间:2018-06-18 04:01:29

标签: python scikit-learn

我正在努力拟合RandomForestClassifier并遇到两个参数:min_sample_splitmin_sample_leaf

我是否需要同时设置min_sample_splitmin_sample_leaf

我想我只需要其中一个,因为其中一个实际上是另一个。我的理解是正确的吗?

1 个答案:

答案 0 :(得分:2)

所以基本上min_sample_split是最低数量。拆分所需的样本例如,如果min_sample_split = 6并且节点中有4个样本,则不会发生拆分(无论熵如何)。

另一方面,

min_sample_leaf基本上是最小值。样本需要是叶节点。假设min_sample_leaf = 3并且在包含5个样本的节点可以分别分成两个大小为2和3的叶节点之后,则不会发生拆分,因为最小叶大小为3。

您可以查看thisthis进一步阅读。

更新:RandomForest和GradientBoostClassifier的行为差异很大程度上归因于他们训练自己的方式(梯度提升是连续分类器的集合),你可以阅读更多关于它的信息{{3了解梯度增强的内部工作