SLURM设置:错误连接SLURM流套接字

时间:2019-01-29 20:21:31

标签: slurm

我试图建立与SLURM一个新的集群。我已经安装了一个客户端和一个控制机器。 (我是这个新手.....)

  1. 当我在控制计算机上键入 sinfo -vvv 时,这会告诉我们

” sinfo:DEBUG2:slurm_connect失败:连接被拒绝   sinfo:debug2:连接192.168.155.142:6817的Slurm流套接字时出错:连接被拒绝“

我的Slurm配置为使用6817端口(完整的配置在此处https://pastebin.com/X4yDe99z

SlurmctldPort=6817

在端口是开放的(I与UFW禁用试图也)

6817 (v6) ALLOW Anywhere (v6)

  1. 当我尝试 slurmctld -Dvvv 时,显示此错误

slurmctld: error: this host (xxxx/xxx) not a valid controller (gaia or (null))

我/ etc / hosts文件是 127.0.0.1 localhost 192.168.155.142 gaia

1 个答案:

答案 0 :(得分:1)

启动ControlMachine的机器slurm.conf中参数slurmctld的值必须是该守护程序在该机器上hostname -s的确切输出开始。

您计算机上的hostname -s似乎没有输出gaia。将gaia替换为xxxx/xxx后面的内容。