我想了解成本复杂度修剪如何用于分类树。
rpart插图中的目标函数写为: C(T)= L(T)+ a | T | 输出是这样的:
Root node error: 918.88/6556 = 0.14016
n= 6556
CP nsplit rel error xerror xstd
1 1.0601e-01 0 1.00000 1.00014 0.014656
2 4.2754e-02 1 0.89399 0.89449 0.014124
3 2.1616e-02 2 0.85124 0.85653 0.014096
4 1.8767e-02 3 0.82962 0.83743 0.014094
5 1.6263e-02 4 0.81085 0.82534 0.014101
6 1.2262e-02 5 0.79459 0.81128 0.014014
7 8.8741e-03 6 0.78233 0.79146 0.013765
8 8.0630e-03 8 0.76458 0.77939 0.013675
9 7.1858e-03 9 0.75651 0.76683 0.013592
10 6.3950e-03 10 0.74933 0.76073 0.013523
11 6.2451e-03 11 0.74293 0.75769 0.013517
12 5.6749e-03 12 0.73669 0.75479 0.013511
13 5.4084e-03 13 0.73101 0.74802 0.013383
14 4.4323e-03 14 0.72561 0.74151 0.013300
15 3.3961e-03 15 0.72117 0.74156 0.013360
现在我有一些问题:
首先,C(T)函数中的L(T)是基尼系数吗? rel错误和x错误是训练和测试测试的错误吗? 但是,此错误的公式是什么?是错误分类的比率还是基尼系数的值?