H2O随机森林在完工时挂起

时间:2017-03-28 14:31:33

标签: r h2o

我正在使用h2o和R在大型(~6百万)行数据集和~50个输出级别上训练随机森林。尽管进度条达到100%,但控制台(和处理器!)仍然处于忙碌状态并且挂起超过一个小时(到目前为止!)。绝对不是资源限制,我有120GB的RAM和几十个核心。

鉴于问题的性质,很难给出一个完全可重复的例子,但有35个变量,其中一半是因素,我正在通过R运行模型训练,并有以下选项:

rforest <- h2o.randomForest(y = y.var
                          , x = x.vars
                          , training_frame = trainData.h2o
                          , validation_frame = testData.h2o
                          , ntrees = 100
                          , stopping_rounds = 3
                          , seed = 42
                          , model_id = modCode
                          , mtries = -1)

有没有人遇到类似的问题/有解释/知道解决方法,好吗?

1 个答案:

答案 0 :(得分:0)

在运行模型之前,您是否对响应变量(即y)进行了对数转换?如果是,那么您确定对日志进行转换之前没有任何y = 1值吗?我遇到了类似的问题,当我使用y = 1从数据集中删除行后,模型的运行速度很快。