我正在尝试使用R中的RPart
运行决策树,在具有26个变量的数据集上将结果分类为0或1.该模型具有81%的公平准确度,当我继续并绘制树,我得到非常乱七八糟的变量分裂值。例如:v10包含一系列国家/地区,例如美国,英国,印度等,但此处显示的图表是一些荒谬的值。 v7这里是一个URL列表,v12我的数据集中的一些定量数字,但树的值看起来搞砸了。
答案 0 :(得分:1)
该算法用字母表中的大小写字母替换每个因子的级别。如果因子中有超过56个级别,则重复Z字母,因此不建议使用超过56个级别的因子作为rpart模型的输入。
但是,可以避免不必要的“乱码”输出:如果您使用plot()+ text(),请尝试在text()函数中使用“pretty”参数。例如:
plot(tree)
text(tree, pretty=1)
其他输出函数具有其特定参数。例如,“labels()”具有“minlength”参数:
labels(tree)
labels(tree,minlength=0)
我希望有所帮助。