Question

修改渐变增强，我注意到R的gbm包在最小的例子上产生的结果与h2o不同。为什么呢？

数据

library(gbm)
library(h2o)

h2o.init()

train <- data.frame(
  X1 = factor(c("A", "A", "A", "B", "B")),
  X2 = factor(c("A", "A", "B", "B", "B")),
  Y = c(0, 1, 3, 4, 7)
)
  X1 X2 Y
1  A  A 0
2  A  A 1
3  A  B 3
4  B  B 4
5  B  B 7

GBM

# (gbm, 1 round, mae)
model.gbm <- gbm(
  Y ~ X1 + X2, data = train, distribution="laplace", n.tree = 1, shrinkage = 1, n.minobsinnode=1, bag.fraction=1, 
  interaction.depth = 1, verbose=TRUE
)
train$Pred.mae.gbm1 <- predict(model.gbm, newdata=train, n.trees=model.gbm$n.trees)

H 2 O

# (h2o, 1 round, mae)
model.h2o <- h2o.gbm(
  x=c("X1", "X2"), y="Y", training_frame=as.h2o(train), distribution="laplace", ntrees=1, max_depth=1, 
  learn_rate = 1, min_rows=1
)
train$Pred.mae.h2o1 <- as.data.frame(h2o.predict(model.h2o, as.h2o(train)))$predict

结果

train
  X1 X2 Y Pred.mae.gbm1 Pred.mae.h2o1
1  A  A 0           1.0           0.5
2  A  A 1           1.0           0.5
3  A  B 3           1.0           4.0
4  B  B 4           5.5           4.0
5  B  B 7           5.5           4.0

Answer 1

它们是完全独立的实现，我怀疑是否已经按照您使用它的方式进行了调整或设计（即单个树，min_rows设置为1）。在这种情况下，看起来R＆lt; gbm已经使用它的单树来学习＆＃34; B＆＃34;输入正确，而h2o.gbm集中在＆＃34; A＆＃34;输入。

当您开始使用真实数据和实际设置时，可能仍存在差异。您有很多参数没有触及（至少h2o.gbm()，这是我熟悉的参数）。并且还有一个随机元素：在R {'1}}之前尝试一百个值seed到h2o.gbm（）和一个常数set.seed()，你可能会遇到至少其中一个结果相同。

为什么gbm（）在这个最小的例子中给出的结果与h2o.gbm（）不同？

1 个答案: