我突然想到,例如,假设我们在2维中有N
点的训练数据。我们知道,我们总是可以天真地构建决策树,以便我们可以对每个数据点进行分类。 (可能我们过度拟合,深度可以达到2 N )
但是,我们知道如果数据集是线性可分的,那么决策树可能会占据优势。使用上面的数据集作为例子,我们可以确定线性和非线性数据集的深度上限吗?是否保证线性情况的深度上限小于非线性情况?
答案 0 :(得分:3)
答案 1 :(得分:1)
假设我们有2个维度的N个点的训练数据。我们知道,我们总是可以天真地构建决策树,以便我们可以对每个数据点进行分类。
如果有2个具有相同特征但标签不同的点,则情况并非如此。
决策树基于轴进行拆分,因此线性可分离并不一定会减少树中分离类所需的拆分数。
是否保证线性情况的深度上限小于非线性情况?
没有。一个简单的反证明是构造一个具有2 * N点和N个特征的线性可分数据集。对于A类,所有特征值均为负数。对于B类,所有特征值均为正值。设每个数据点只有1个非零特征值。
该数据集需要在每个特征上进行分割(从而增长到最大深度)才能学习,尽管可以线性分离。