sklearn决策树分类器:如何控制每个分割的最大分支数

时间:2018-05-05 22:39:04

标签: python-3.x tree scikit-learn sklearn-pandas classifier4j

我正在尝试编写一个我之前使用过SAS EM的两类分类DT问题。但是想在Sklearn做这件事。目标变量是两类分类变量。但是有一些连续的自变量。在SAS中,我可以为每个拆分指定“最大分支数”。因此,当它设置为4时,一些叶子将分成2个而一些叶子将分成4个(特别是对于连续变量)。我在sklearn中找不到等效参数。看着“max_leaf-nodes”。但是,它控制整个树的“叶子”节点的总数。我相信你们中的一些人可能面临同样的情况并且已经找到了解决方案。请帮忙/分享。我真的很感激。

1 个答案:

答案 0 :(得分:1)

我不认为这个选项在sklearn中可用,你会发现这个Post对你的Classification DT非常有用;因为它列出了您可用的所有选项。

我建议为你的连续变量创建Bins;这样你就可以强制分支成为你拥有的垃圾箱数量。

示例:对于连续变量,COl1的值在1-100之间;你可以创建一个4箱1-25,26-50,51-75,76-100。或者你可以在中位数上创建垃圾箱。