带有套袋功能,运行时间长

时间:2019-06-04 20:21:51

标签: r performance

我有一个包含17000个观测值的数据集,我正在尝试使用37个解释变量和装袋算法来预测二进制变量(0,1)。

我正在使用adabag软件包中的功能袋装,但是安装模型需要花费很长时间。我以前使用过此函数,但我知道它通常会花费一些时间,但这要花费两个半小时以上,并且R仍在运行。我的数据包括类型为class的目标变量,一些数字为类型的连续变量以及字符类型的分类变量。任何帮助将不胜感激。

考虑到数据集的大小,这似乎是一个合理的时间量,还是可能存在另一个问题?

我试图减少树的数量并更改参数,以使每棵树都“更小”,所有这些都是为了减少运行时间,但并没有帮助。

这是我的代码:

bagging1_all1<-bagging(Deafault_year~., data=training_bag1, mfinal=10,control =
                     rpart.control
                   (minsplit = 100, minbucket = 50,cp = 0.01)) 

关于可以做什么以及我在哪里出错的任何建议。

0 个答案:

没有答案