我在Google Cloud平台上部署的Slurm群集遇到问题。在我的slurmctld.log文件中,出现以下错误:
错误:slurm_persist_conn_open_without_init:无法持久打开 与google-gcp-controller的连接:6819:连接被拒绝
所以我看着sacctmgr list cluster WOLimits
集群ControlHost ControlPort RPC
google-gcp 10.10.0.2 6817 8192
错误和sacctmgr的输出之间ControlPort不匹配。这就是为什么我的工作失败了吗?我该如何解决这个问题?
答案 0 :(得分:0)
6819是计费存储端口; slurmdbd
守护程序应该监听该端口。因此,很可能这个守护进程没有运行,甚至没有配置。有关更多信息,请参见documentation。