Question

我正在使用h2o和R在大型（~6百万）行数据集和~50个输出级别上训练随机森林。尽管进度条达到100％，但控制台（和处理器！）仍然处于忙碌状态并且挂起超过一个小时（到目前为止！）。绝对不是资源限制，我有120GB的RAM和几十个核心。

鉴于问题的性质，很难给出一个完全可重复的例子，但有35个变量，其中一半是因素，我正在通过R运行模型训练，并有以下选项：

rforest <- h2o.randomForest(y = y.var
                          , x = x.vars
                          , training_frame = trainData.h2o
                          , validation_frame = testData.h2o
                          , ntrees = 100
                          , stopping_rounds = 3
                          , seed = 42
                          , model_id = modCode
                          , mtries = -1)

有没有人遇到类似的问题/有解释/知道解决方法，好吗？

Answer 1

在运行模型之前，您是否对响应变量（即y）进行了对数转换？如果是，那么您确定对日志进行转换之前没有任何y = 1值吗？我遇到了类似的问题，当我使用y = 1从数据集中删除行后，模型的运行速度很快。

H2O随机森林在完工时挂起

1 个答案: