CART算法使用的离散化方法是什么?

时间:2016-11-30 15:16:21

标签: machine-learning scikit-learn decision-tree

我目前正在开展scikit-learn项目,我想知道分类器使用的决策树算法是如何工作的。我试着理解如何选择树节点上的测试,但是我找不到算法用于离散连续变量的方法的任何解释。我在一篇论文中读到一些决策树算法使用Tschuprow的T方法,但我不确定CART是否正在使用它。 有人知道吗?

1 个答案:

答案 0 :(得分:1)

我不完全确定,但我会说CART根据数据评估某个连续变量的所有可能分裂。也就是说,如果我们有X = {1, 3, 17, 24, 10005},则分割点将是X < 1X >= 1X >= 3X >= 17等等。

这是在每个节点上选择最佳最佳分割的唯一方法,尽管它可能在计算上很昂贵。如果我们只探索了所有可能的分裂的一个子集,我们最终可能会选择非最优(贪婪意义上的)。