我正在尝试使用“ rpart”软件包估算R中的决策树。分析单位是个人,两个相关变量是职业(如果工作,OCC = 1,如果失业,OCC = 0)和到工作场所的距离(WORKD)。 WORKD仅对工作的人具有价值(OCC = 1),对不工作的人具有价值(如果OCC = 0,则WORKD = NA)。
这些变量的向量将类似于以下内容:
OCC <-c(1,0,0,1,1,0,1)
WORKD <-c(0.4,NA,NA,1.5,2.4,NA,0)
我的问题是:rpart是否有办法仅在已经分区OCC = 1的分支中考虑变量WORKD?
我不想为失业者输入WORKD = 0,因为它总是认为WORKD比OCC更相关。另一方面,仅将WORKD与该替代产品一起使用会忽略有人在家工作(OCC = 1,WORKD = 0)。