Question

如果有一个数据集，其中有27个解释变量（分类和公制）和一个二元响应变量的50000个观测值。

使用rpart（CART算法）创建分类树时，我得到一个带有27个终端节点的修剪树。

使用chaid（CHAID算法）创建决策树时，我得到一个包含大约100个终端节点的树。（当然，我将度量数据转换为分类数据）。使用partykit（使用条件推理树和mincriterion = 0.999）时也会发生这种情况。

适用于所有算法minsplit=150和minbucket=50。

如何用大约100个终端节点绘制树？我想也许只绘制终端节点的ID，然后分别显示终端节点的汇总统计。我尝试使用以下代码执行此操作（其中chaid是类方的对象）：

plot(chaid, type="simple",gp = gpar(fontsize = 10), drop=T, 
ip_args=list(abbreviate = F, id = F, pval=F), tp_args=list(id=T))

但它不起作用，因为我得到更多的终端节点的摘要统计信息，因为没有tp_args参数。如何仅绘制终端节点的ID？或者有人有任何想法/例子如何打印这么大的树木？

这个大小的数据集是否有可能导致这么大的树或者我错过了什么？