如果我在相同数量的节点上有两个决策树,这被认为更好? 树1: (F为假,T为真)
意思是第一个更宽,但第二个更深。
答案 0 :(得分:6)
我知道这个问题已经很老了,但是如果你仍然对答案感兴趣,一般来说,更短更宽的树会“更好”。考虑这样一个事实,它将需要另外的决定来达到内部决策节点“C”。
您真正需要注意的是每个内部决策节点上的 entropy 和 gain 。 熵是具有特定变量的不确定性或随机性的量。例如,考虑一个具有两个类的分类器, YES 和 NO (在您的情况下为true或false)。如果一个特定的变量或属性,比如 x 有三个类YES的训练样例和三个训练样例NO(总共六个),则熵将为1.这是因为有一个这个变量的两个类的数量相等,是你可以得到的最“混合”。同样,如果 x 具有特定类的所有六个训练样例,例如YES,则熵将为0,因为此特定变量将是纯的,因此使其成为决策树中的叶节点。
熵可以通过以下方式计算:
现在考虑增益。请注意,决策树的每个级别,我们选择为该节点提供最佳增益的属性。增益只是通过学习随机变量 x 的状态实现的熵的预期减少。增益也称为Kullback-Leibler分歧。增益可以通过以下方式计算: