如果有一个数据集,其中有27个解释变量(分类和公制)和一个二元响应变量的50000个观测值。
使用rpart
(CART算法)创建分类树时,我得到一个带有27个终端节点的修剪树。
使用chaid(CHAID算法)创建决策树时,我得到一个包含大约100个终端节点的树。 (当然,我将度量数据转换为分类数据)。使用partykit
(使用条件推理树和mincriterion = 0.999
)时也会发生这种情况。
适用于所有算法minsplit=150
和minbucket=50
。
如何用大约100个终端节点绘制树?我想也许只绘制终端节点的ID,然后分别显示终端节点的汇总统计。我尝试使用以下代码执行此操作(其中chaid是类方的对象):
plot(chaid, type="simple",gp = gpar(fontsize = 10), drop=T,
ip_args=list(abbreviate = F, id = F, pval=F), tp_args=list(id=T))
但它不起作用,因为我得到更多的终端节点的摘要统计信息,因为没有tp_args
参数。如何仅绘制终端节点的ID?或者有人有任何想法/例子如何打印这么大的树木?
这个大小的数据集是否有可能导致这么大的树或者我错过了什么?