如何选择具有相同增益信息的最佳分割属性

时间:2013-07-10 16:50:09

标签: r attributes split cart-analysis

我实际上是在逐步计算CART(分类和回归树)如何使用此训练数据集选择最佳属性:

      Car Age Children Location
1   sedan  23        0      yes
2  sports  31        1       no
3   sedan  36        1       no
4   truck  25        2       no
5  sports  30        0       no
6   sedan  36        0       no
7   sedan  25        0      yes
8   truck  36        1       no
9   sedan  30        2      yes
10  sedan  31        1      yes
11 sports  25        0       no
12  truck  45        0      yes

R给出的结果:

  • n = 12 node),split,n,loss,yval,(yprob)       *表示终端节点
  • 1)root 12 5 no(0.5833333 0.4166667)
  • 2)Car = sports,truck 6 1 no(0.8333333 0.1666667)
  • 4)年龄
  • 5)年龄> = 40.5 1 0是(0.0000000 1.0000000)*
  • 3)Car = sedan 6 2是(0.3333333 0.6666667)
  • 6)年龄> = 33.5 2 0否(1.0000000 0.0000000)*
  • 7)年龄

对于根节点Gini(root)= 0.486

  • - 使用Car属性GainGini(Car)= 0.1255;
  • - 使用Age属性,我获得了相同的增益,阈值为27.5和33.5。如果GainGini(年龄)最大化,那么选择哪一个。
  • - 使用Children属性。 2个子节点非常纯净,所以GainGini(儿童)= 0.486

我的第一个问题是为什么在这个情节中我得到了分裂的Car属性?

    对于第一个右子节点:Gini(node2)= 0.444
  • - 使用Age属性:阈值33.5得到GainGini(Age)= 0.444
  • - with children属性:与根节点相同(所有实例都是纯粹的)GainGini(children)= 0.444

这是我的第二个问题,CART如何设法选择具有这两个值的split属性?

0 个答案:

没有答案