我一直在尝试根据https://www.youtube.com/watch?v=FXsgmwpRExM给出的HPC环境下的Dask教程。
我设法将所需的所有软件包安装在奇点映像中,然后使用以下命令在LSF群集上运行该映像:bsub -ISs -q "par-multi" -J "ipy_test" -n 16 singularity shell container.img
之后,我使用简单的ipython
命令启动ipython,然后使用from dask_jobqueue import LSFCluster
从dask_jobqueue导入LSFCluster
然后,我通过调用cluster = LSFCluster(cores=2, memory="1 GB")
设置了测试集群,并通过调用cluster.scale(2)
设置了2个工作线程,此时我得到以下堆栈跟踪:
tornado.application-错误-回调Traceback中的异常(最后一次调用最近):文件 “ /usr/lib64/python2.7/site-packages/tornado/ioloop.py”,第758行,在 _run_callback ret = callback()文件“ /usr/lib64/python2.7/site-packages/tornado/stack_context.py”,行 300,在null_wrapper中 返回fn(* args,** kwargs)文件“ /usr/lib/python2.7/site-packages/dask_jobqueue/core.py”,行416,在 放大 self.start_workers(n-self._count_active_and_pending_workers())文件“ /usr/lib/python2.7/site-packages/dask_jobqueue/core.py”,行 330,在start_workers中 out = self._submit_job(fn)文件“ /usr/lib/python2.7/site-packages/dask_jobqueue/lsf.py”,第114行,在 _提交工作 返回self._call(piped_cmd,shell = True)文件“ /usr/lib/python2.7/site-packages/dask_jobqueue/core.py”,行383,在 _呼叫 cmd_str,out,err))RuntimeError:命令退出,退出代码非零。退出代码:127命令:bsub / dev / null标准输出:stderr:
有人会知道我可能会去哪里吗?
谢谢。