在Google Cloud的Slurm部署中更改ControlPort

时间:2019-03-18 13:02:24

标签: google-cloud-platform slurm

我在Google Cloud平台上部署的Slurm群集遇到问题。在我的slurmctld.log文件中,出现以下错误:

  

错误:slurm_persist_conn_open_without_init:无法持久打开   与google-gcp-controller的连接:6819:连接被拒绝

所以我看着sacctmgr list cluster WOLimits

  

集群ControlHost ControlPort RPC

     
     

google-gcp 10.10.0.2 6817 8192

错误和sacctmgr的输出之间ControlPort不匹配。这就是为什么我的工作失败了吗?我该如何解决这个问题?

1 个答案:

答案 0 :(得分:0)

6819是计费存储端口; slurmdbd守护程序应该监听该端口。因此,很可能这个守护进程没有运行,甚至没有配置。有关更多信息,请参见documentation