我正在尝试运行h2o.automl()但它一直失败,因为我的ncpus用完了。
我通过请求47个帖子h2o.init(nthreads=47)
我在开始时提供了足够数量的ncpus和内存:
然而,过了一段时间(完成率达到38%),它会切断并告诉我没有足够的ncpus。R连接到H2O群集: H2O群集正常运行时间:2秒286毫秒 H2O集群时区:欧洲/伦敦 H2O数据解析时区:UTC H2O集群版本:3.18.0.4 H2O集群版本年龄:18天 H2O群集名称:H2O_started_from_R_cmorgan1_gvi181 H2O集群总节点数:1 H2O集群总内存:26.67 GB H2O集群总核心数:40 H2O集群允许核心:40 H2O群集健康:正确 H2O连接ip:localhost H2O连接端口:54321 H2O连接代理:NA H2O内部安全:错误 H2O API扩展:XGBoost,Algos,AutoML,Core V3,Core V4 R版本:R版本3.4.1(2017-06-30)
| ============================================== ======================== | 100%| ==== | ======= | ========= | ========== | ============= =
| ================ | ================= | =========== | == =
| ===========================
| 38%=>> PBS:工作被杀:ncpus 33.43超过限制32(总和)============================================
Job resource usage summary Memory (GB) NCPUs Requested : 45 48 Used : 12 (peak) 36.00 (ave)
有没有人遇到过这个问题,你有解决方法吗?我不相信我的数据大小异常,它有29个缩放参数和94,000行数据。
先谢谢,
答案 0 :(得分:1)
这与H2O无关。
这里的线索是“PBS:工作被杀”的信息。
此处的少量互联网搜索表明您正在某种程度上使用PBS调度程序(https://en.wikipedia.org/wiki/Portable_Batch_System),这就是在扼杀您的工作。 (我以前从未见过任何人使用PBS,但这很可能基于上述信息。)
由于PBS告诉你你的限制是32个核心,我建议你尝试指定一个小于该值的值。也许使用h2o.init(nthreads=30)
PBS不会再杀死你的进程了。