我有一个要求,我需要根据与连续变量的关联将我的分类变量(具有5个以上的类别值)分组到5个组中。要实现这一点,我使用 rpart 和“ annova ”方法。
例如,我的分类变量是类型,代码 1,2,3,4,5,6,7,8,9,10,11,12,13,14 ,15 所以我想要有5组这个变量。在运行树以便只有5个组之后我需要修剪树。我尝试过的一种方法是使用 cptable 中的 nsplit ,但是nsplit为5可能会给我7-8个叶子,类似的 nsplit 为4个给我5-6片叶子。
我正在寻找一个选项,当我修剪时,我只得到5片叶子,这将作为我的5组。
有人可以建议我如何使用rpart实现这一目标。
谢谢!