H20 - 超过了ncpus

时间:2018-03-27 10:11:16

标签: r h2o automl

我正在尝试运行h2o.automl()但它一直失败,因为我的ncpus用完了。

我通过请求47个帖子h2o.init(nthreads=47)

来启动我的h20会话

我在开始时提供了足够数量的ncpus和内存:

  

R连接到H2O群集:       H2O群集正常运行时间:2秒286毫秒       H2O集群时区:欧洲/伦敦       H2O数据解析时区:UTC       H2O集群版本:3.18.0.4       H2O集群版本年龄:18天       H2O群集名称:H2O_started_from_R_cmorgan1_gvi181       H2O集群总节点数:1       H2O集群总内存:26.67 GB       H2O集群总核心数:40       H2O集群允许核心:40       H2O群集健康:正确       H2O连接ip:localhost       H2O连接端口:54321       H2O连接代理:NA       H2O内部安全:错误       H2O API扩展:XGBoost,Algos,AutoML,Core V3,Core V4       R版本:R版本3.4.1(2017-06-30)

然而,过了一段时间(完成率达到38%),它会切断并告诉我没有足够的ncpus。

  

| ============================================== ======================== | 100%| ==== | ======= | ========= | ========== | ============= =
  | ================ | ================= | =========== | == =
  | ===========================
  | 38%=>> PBS:工作被杀:ncpus 33.43超过限制32(总和)

     

============================================

    Job resource usage summary

             Memory (GB)    NCPUs  Requested  :        45            48  Used       :        12 (peak)  36.00 (ave)

有没有人遇到过这个问题,你有解决方法吗?我不相信我的数据大小异常,它有29个缩放参数和94,000行数据。

先谢谢,

1 个答案:

答案 0 :(得分:1)

这与H2O无关。

这里的线索是“PBS:工作被杀”的信息。

此处的少量互联网搜索表明您正在某种程度上使用PBS调度程序(https://en.wikipedia.org/wiki/Portable_Batch_System),这就是在扼杀您的工作。 (我以前从未见过任何人使用PBS,但这很可能基于上述信息。)

由于PBS告诉你你的限制是32个核心,我建议你尝试指定一个小于该值的值。也许使用h2o.init(nthreads=30) PBS不会再杀死你的进程了。