C4.5决策树:线性可分数据中的深度可以更高,然后非线性可分吗?

时间:2015-10-01 15:33:23

标签: algorithm machine-learning decision-tree

我突然想到,例如,假设我们在2维中有N点的训练数据。我们知道,我们总是可以天真地构建决策树,以便我们可以对每个数据点进行分类。 (可能我们过度拟合,深度可以达到2 N

但是,我们知道如果数据集是线性可分的,那么决策树可能会占据优势。使用上面的数据集作为例子,我们可以确定线性和非线性数据集的深度上限吗?是否保证线性情况的深度上限小于非线性情况?

2 个答案:

答案 0 :(得分:3)

有点太晚了,但是,你仍然可以看一下这个例子,在这个例子中,不可分离的线性数据集需要较少的线性可分离的分割。 enter image description here

答案 1 :(得分:1)

  

假设我们有2个维度的N个点的训练数据。我们知道,我们总是可以天真地构建决策树,以便我们可以对每个数据点进行分类。

如果有2个具有相同特征但标签不同的点,则情况并非如此。

决策树基于轴进行拆分,因此线性可分离并不一定会减少树中分离类所需的拆分数。

  

是否保证线性情况的深度上限小于非线性情况?

没有。一个简单的反证明是构造一个具有2 * N点和N个特征的线性可分数据集。对于A类,所有特征值均为负数。对于B类,所有特征值均为正值。设每个数据点只有1个非零特征值。

该数据集需要在每个特征上进行分割(从而增长到最大深度)才能学习,尽管可以线性分离。