automl NaN在排行榜中的表现

时间:2017-10-12 15:39:03

标签: h2o

我正在使用H2O.AI h2o.automl函数来执行标准的二进制分类问题。我正在使用CRAN上发布的最后一个包版本。我运行了以下代码:

my_automl_model<-h2o.automl(x=predictorsList, y="Purchase", training_frame = train.h2o, validation_frame =  test.h2o, stopping_metric = "logloss", max_runtime_secs = 60*60*3).

购买两个级别的因素(&#34; N&#34;,&#34; S&#34;)和预测者&#39; list是predictorsList。

快速通话记录如下:

                                   model_id auc logloss
1 GLM_grid_0_AutoML_20171012_150410_model_1 NaN     NaN
2 GLM_grid_0_AutoML_20171012_150410_model_0 NaN     NaN
3     DeepLearning_0_AutoML_20171012_145911 NaN     NaN
4  StackedEnsemble_0_AutoML_20171012_145911 NaN     NaN
5 GLM_grid_0_AutoML_20171012_145911_model_1 NaN     NaN
6 GLM_grid_0_AutoML_20171012_145911_model_0 NaN     NaN

我理解该软件包对模型进行排名,但我想知道为什么没有显示性能指标......

我也想了解: 1. XRT_xxx型号代表什么? 2.如果有任何方法可以指定n次交叉验证。

提前感谢您的支持

1 个答案:

答案 0 :(得分:1)

我现在将在最后解决这两个问题并更新我的答案,如果你能提供一个在排行榜问题中复制NA的公共数据集。

  
      
  1. XRT_xxx型号代表什么?
  2.   

XRT =使用极度随机树的随机森林(又名ExtraTrees)。这是通过设置histogram_type = "Random"

来实现的
  
      
  1. 如果有任何方法可以指定n-folds交叉验证。
  2.   

现在您可以使用fold_column指定自定义折叠,这样您就可以通过这种方式更改折叠次数。这应该是指定折叠的整数或因子列,因此创建它的最简单方法就像(R示例):

# train should be your training_frame; we will use iris as an example
data("iris")
train <- as.h2o(iris)

# add a fold column that uses 10 folds
train[,"fold"] <- as.h2o(rep_len(1:10, nrow(train)))

然后在fold_column = "fold"中设置h2o.automl()

在下一个版本中,我们将直接公开nfolds参数以使其更容易(按照此任务的进度here)。