我正在使用h2o和R在大型(~6百万)行数据集和~50个输出级别上训练随机森林。尽管进度条达到100%,但控制台(和处理器!)仍然处于忙碌状态并且挂起超过一个小时(到目前为止!)。绝对不是资源限制,我有120GB的RAM和几十个核心。
鉴于问题的性质,很难给出一个完全可重复的例子,但有35个变量,其中一半是因素,我正在通过R运行模型训练,并有以下选项:
rforest <- h2o.randomForest(y = y.var
, x = x.vars
, training_frame = trainData.h2o
, validation_frame = testData.h2o
, ntrees = 100
, stopping_rounds = 3
, seed = 42
, model_id = modCode
, mtries = -1)
有没有人遇到类似的问题/有解释/知道解决方法,好吗?
答案 0 :(得分:0)
在运行模型之前,您是否对响应变量(即y
)进行了对数转换?如果是,那么您确定对日志进行转换之前没有任何y = 1
值吗?我遇到了类似的问题,当我使用y = 1
从数据集中删除行后,模型的运行速度很快。