algorithm - C4.5决策树：线性可分数据中的深度可以更高，然后非线性可分吗？

时间：2015-10-01 15:33:23

标签： algorithm machine-learning decision-tree

我突然想到，例如，假设我们在2维中有N点的训练数据。我们知道，我们总是可以天真地构建决策树，以便我们可以对每个数据点进行分类。（可能我们过度拟合，深度可以达到2 ^N）

但是，我们知道如果数据集是线性可分的，那么决策树可能会占据优势。使用上面的数据集作为例子，我们可以确定线性和非线性数据集的深度上限吗？是否保证线性情况的深度上限小于非线性情况？

答案 0 :(得分：3)

有点太晚了，但是，你仍然可以看一下这个例子，在这个例子中，不可分离的线性数据集需要较少的线性可分离的分割。

答案 1 :(得分：1)

假设我们有2个维度的N个点的训练数据。我们知道，我们总是可以天真地构建决策树，以便我们可以对每个数据点进行分类。

如果有2个具有相同特征但标签不同的点，则情况并非如此。

决策树基于轴进行拆分，因此线性可分离并不一定会减少树中分离类所需的拆分数。

是否保证线性情况的深度上限小于非线性情况？

没有。一个简单的反证明是构造一个具有2 * N点和N个特征的线性可分数据集。对于A类，所有特征值均为负数。对于B类，所有特征值均为正值。设每个数据点只有1个非零特征值。

该数据集需要在每个特征上进行分割（从而增长到最大深度）才能学习，尽管可以线性分离。