我有一个数据集,其中包含各种类别变量,而没有数字变量。我通过以下方式将变量转换为有序因子:
df$colA= factor(df$colA,levels=unique(df$colA), ordered=TRUE)
现在,我正在制作一个随机森林模型,然后使用以下代码制作一棵树:
getTree(model.rf, 1, labelVar=TRUE) #model.rf is the model created using df and various columns
我得到的树如下:
left daughter right daughter split var split point status prediction
1 2 3 colA 1.5 1 <NA>
2 4 5 colB 2.5 1 <NA>
以此类推。...
我的split var都是有序因子分类变量。现在如何将分割点解释为1.5或2.5。我不能说分裂是在两组之间。
进一步说明:假设ColA
是性别为M
或F
的性别,而ColB
是Weight
且性别为{{1}的性别} High
Medium
。
现在向利益相关者解释一下,我不能说性别在男性和女性之间,而体重在中高之间
在处理分类变量时,有人可以帮助我解释RF树吗?