我正在使用R软件包C50来训练一个C5.0决策树,其中包含一个相对较大的数据集,其中包含大约700万个观测值和25个变量(int,num,factor,ordered factor):
C5Tree <- C5.0(Fraud ~ ., data = training, costs = costs)
培训工作正常,但是当我尝试绘制树时,我收到以下错误消息:
plot(C5Tree)
Error in partysplit(varid = as.integer(i), index = index, info = k, prob = NULL) :
minimum of ‘index’ is not equal to 1
当我使用数据的子样本(大约350万个观察值)时,我得到一个不同的错误信息:
Error in 1:dim(a17)[1] : argument of length 0
使用rpart和RWeka时,我没有遇到任何问题。
答案 0 :(得分:0)
我最近也有这个问题。它来自一个分类变量,在给定类别中观察的数量非常少。
我建议查看解释变量的不同类别的计数 - 我猜是有一个类别中只有1或2个观察值。