插入符号和虚拟变量

时间:2016-04-05 08:43:14

标签: r r-caret

调用插入符号包的train函数时,数据会自动转换,以便将所有因子变量转换为一组虚拟变量。

如何防止此行为?是否可以说插入符号并不会将因素转换为虚拟变量"?

例如:

如果我在rpart数据上运行etitanic算法:

library(caret)
library(earth)
data(etitanic)

etitanic$survived[etitanic$survived==1] <- 'YES'
etitanic$survived[etitanic$survived!='YES'] <- 'NO'

model<-train(survived~., data=etitanic, method='rpart')

然后生成的最终模型如下:

> model$finalModel
n= 1046 

node), split, n, loss, yval, (yprob)
      * denotes terminal node

 1) root 1046 427 NO (0.5917782 0.4082218)  
   2) sexmale>=0.5 658 135 NO (0.7948328 0.2051672)  
     4) age>=9.5 615 110 NO (0.8211382 0.1788618) *
     5) age< 9.5 43  18 YES (0.4186047 0.5813953)  
      10) sibsp>=2.5 16   1 NO (0.9375000 0.0625000) *
      11) sibsp< 2.5 27   3 YES (0.1111111 0.8888889) *
   3) sexmale< 0.5 388  96 YES (0.2474227 0.7525773) *

如果我直接运行rpart算法并构建一个树,我得到

> rpart(survived~., data=etitanic)
n= 1046 

node), split, n, loss, yval, (yprob)
      * denotes terminal node

 1) root 1046 427 NO (0.59177820 0.40822180)  
   2) sex=male 658 135 NO (0.79483283 0.20516717)  
     4) age>=9.5 615 110 NO (0.82113821 0.17886179) *
     5) age< 9.5 43  18 YES (0.41860465 0.58139535)  
      10) sibsp>=2.5 16   1 NO (0.93750000 0.06250000) *
      11) sibsp< 2.5 27   3 YES (0.11111111 0.88888889) *
   3) sex=female 388  96 YES (0.24742268 0.75257732)  
     6) pclass=3rd 152  72 NO (0.52631579 0.47368421)  
      12) age>=1.5 145  66 NO (0.54482759 0.45517241)  
        24) sibsp>=1.5 19   4 NO (0.78947368 0.21052632) *
        25) sibsp< 1.5 126  62 NO (0.50793651 0.49206349)  
          50) age>=27.5 44  15 NO (0.65909091 0.34090909) *
          51) age< 27.5 82  35 YES (0.42682927 0.57317073) *
      13) age< 1.5 7   1 YES (0.14285714 0.85714286) *
     7) pclass=1st,2nd 236  16 YES (0.06779661 0.93220339) *

现在,忘记树木不同的部分。据我所知,它们是用不同的参数构建的。但是,它们也基于不同的数据集。例如,插入符号树建立在一个数据集上,其中一列是&#34; sexmale&#34;,这是从原始数据中的sex列创建的虚拟列。

在将数据提供给caret之前,是否有某种方法告诉rpart不要执行此虚拟变量创建?

1 个答案:

答案 0 :(得分:2)

为了使插入符与rpart完全相同,我将rpart函数设置为&#34; none&#34;并将使用一个记录的tuneGrid,其cp设置为0.01。默认值与默认值ctrl <- trainControl(method = "none") #caret formula model model<-train(survived ~ ., data=etitanic, method='rpart', trControl = ctrl, tuneGrid = expand.grid(cp = 0.01)) # rpart model model_rp <- rpart(survived~., data=etitanic) print(model$finalModel) 1) root 1046 427 NO (0.59177820 0.40822180) 2) sexmale>=0.5 658 135 NO (0.79483283 0.20516717) 4) age>=9.5 615 110 NO (0.82113821 0.17886179) * 5) age< 9.5 43 18 YES (0.41860465 0.58139535) 10) sibsp>=2.5 16 1 NO (0.93750000 0.06250000) * 11) sibsp< 2.5 27 3 YES (0.11111111 0.88888889) * 3) sexmale< 0.5 388 96 YES (0.24742268 0.75257732) 6) pclass3rd>=0.5 152 72 NO (0.52631579 0.47368421) 12) age>=1.5 145 66 NO (0.54482759 0.45517241) 24) sibsp>=1.5 19 4 NO (0.78947368 0.21052632) * 25) sibsp< 1.5 126 62 NO (0.50793651 0.49206349) 50) age>=27.5 44 15 NO (0.65909091 0.34090909) * 51) age< 27.5 82 35 YES (0.42682927 0.57317073) * 13) age< 1.5 7 1 YES (0.14285714 0.85714286) * 7) pclass3rd< 0.5 236 16 YES (0.06779661 0.93220339) * print(model_rp) 1) root 1046 427 NO (0.59177820 0.40822180) 2) sex=male 658 135 NO (0.79483283 0.20516717) 4) age>=9.5 615 110 NO (0.82113821 0.17886179) * 5) age< 9.5 43 18 YES (0.41860465 0.58139535) 10) sibsp>=2.5 16 1 NO (0.93750000 0.06250000) * 11) sibsp< 2.5 27 3 YES (0.11111111 0.88888889) * 3) sex=female 388 96 YES (0.24742268 0.75257732) 6) pclass=3rd 152 72 NO (0.52631579 0.47368421) 12) age>=1.5 145 66 NO (0.54482759 0.45517241) 24) sibsp>=1.5 19 4 NO (0.78947368 0.21052632) * 25) sibsp< 1.5 126 62 NO (0.50793651 0.49206349) 50) age>=27.5 44 15 NO (0.65909091 0.34090909) * 51) age< 27.5 82 35 YES (0.42682927 0.57317073) * 13) age< 1.5 7 1 YES (0.14285714 0.85714286) * 7) pclass=1st,2nd 236 16 YES (0.06779661 0.93220339) * 完全相同。

as.party()

查看这两个模型,您可以看到,即使插入符号将因子和字符转换为具有默认类作为参考类,树也完全相同,节点中的百分比相同。您可以使用partykit包并在模型上使用#caret default model model_xy <-train(x = etitanic[, -2], y = etitanic$survived, method='rpart', trControl = ctrl, tuneGrid = expand.grid(cp = 0.01)) print(model_xy$finalModel) 1) root 1046 427 NO (0.59177820 0.40822180) 2) sex=male 658 135 NO (0.79483283 0.20516717) 4) age>=9.5 615 110 NO (0.82113821 0.17886179) * 5) age< 9.5 43 18 YES (0.41860465 0.58139535) 10) sibsp>=2.5 16 1 NO (0.93750000 0.06250000) * 11) sibsp< 2.5 27 3 YES (0.11111111 0.88888889) * 3) sex=female 388 96 YES (0.24742268 0.75257732) 6) pclass=3rd 152 72 NO (0.52631579 0.47368421) 12) age>=1.5 145 66 NO (0.54482759 0.45517241) 24) sibsp>=1.5 19 4 NO (0.78947368 0.21052632) * 25) sibsp< 1.5 126 62 NO (0.50793651 0.49206349) 50) age>=27.5 44 15 NO (0.65909091 0.34090909) * 51) age< 27.5 82 35 YES (0.42682927 0.57317073) * 13) age< 1.5 7 1 YES (0.14285714 0.85714286) * 7) pclass=1st,2nd 236 16 YES (0.06779661 0.93220339) * 来获得更好的布局。

但是如果你想在不使用因子的情况下使用与rpart完全相同的模型,则可以使用默认的模型使用方法。

{{1}}