具有模拟数据的回归树 - rpart包

时间:2017-09-27 17:07:21

标签: r split rpart

我已经模拟了一些数据来创建一个包含3个终端节点的回归树:

set.seed(1988)
n=1000
X1<-rnorm(n,mean=0,sd=2)
X2<-rnorm(n,mean=0,sd=2)
e<-rnorm(n)
Y=5*I(X1<1)*I(X2<0.2)+4*I(X1<1)*I(X2>=0.2)+3*I(X1>=1)+e
mydat=as.data.frame(cbind(Y,X1,X2))

所以,我想先按X1&lt; 1分割,对于X1&lt; 1我要分割X2&lt; 0.2。叶子中Y的值是指标的系数。

如果我运行RPART包中实现的程序,在上面的情况下一切正常。

mytree<-rpart(Y~.,data=mydat)
mytree

输出:

node), split, n, deviance, yval
      * denotes terminal node

1) root 1000 1627.0670 4.043696  
  2) X1>=0.9490461 326  373.8485 3.124825 *
  3) X1< 0.9490461 674  844.8367 4.488135  
    6) X2>=0.2488142 327  312.7506 3.970742 *
    7) X2< 0.2488142 347  362.0582 4.975708 *

如果我尝试使用系数全部为负,它也会运行。 但是当我尝试在最终术语中生成一些负值和一些正值时(它意味着在树的“交互”中,所以在第二个级别划分分割时),RPART会更改拆分的顺序和值在叶子不正确:

Y=-5*I(X1<1)*I(X2<0.2)+4*I(X1<1)*I(X2>=0.2)+3*I(X1>=1)+e
mydat=as.data.frame(cbind(Y,X1,X2))

mytree<-rpart(Y~.,data=mydat)
mytree

输出:

  node), split, n, deviance, yval
      * denotes terminal node

1) root 1000 17811.4000  0.6136962  
  2) X2< 0.1974489 515  8116.5350 -2.3192910  
    4) X1< 1.002815 343   359.7394 -5.0305350 *
    5) X1>=1.002815 172   207.4313  3.0874360 *
  3) X2>=0.1974489 485   560.3419  3.7281050 *

有人对这个问题有所了解吗?

由于

1 个答案:

答案 0 :(得分:0)

您需要调整复杂性参数cp。请参阅以下代码。

# Data Generating Process
set.seed(1988)
n=1000
X1<-rnorm(n,mean=0,sd=2)
X2<-rnorm(n,mean=0,sd=2)
e<-rnorm(n)
Y=-5*I(X1<1)*I(X2<0.2)+4*I(X1<1)*I(X2>=0.2)+3*I(X1>=1)+e
mydat=as.data.frame(cbind(Y,X1,X2))

library(rpart)
mytree<-rpart(Y~.,data=mydat, cp=0.0001)

# Plot the cross-validation error vs the complexity parameter
plotcp(mytree)

enter image description here

# Find the optimal value of the complexity parameter cp
optcp <- mytree$cptable[which.min(mytree$cptable[,4]),1]

# Prune the tree using the optial complexity parameter
mytree <- prune(mytree,optcp)

已修剪的树正确表示基础数据生成过程

library(rattle)
fancyRpartPlot(mytree)

enter image description here