我是第一次安装slurm。我已经安装了19.05.1-2压缩包,并使用配置程序制作了一个非常简单的两节点群集。控制节点为sdc,计算节点(运行slurmd)为sdc和sdc1。两者都使用Ubuntu 18.04进行了重建
我可以启动控制器和计算节点sdc,也可以使用srun成功提交作业。那很棒。但是,当我在第二个节点SDC1上开始slurmd时,我得到:
slurmd: error: Unable to register: Zero Bytes were transmitted or received
那很快使我想到了自己的配置。控制器(sdc)上的Munge.log每秒钟显示“无效凭据”。我三重检查了两台主机上的munge.key是否相同。我验证了ntp也在运行。
因此,我手动进行了munge -s foobar |取消对SDC1的关注,当然也可以在本地工作。然后,我将SDC1中的蒙文本保存到SDC上的文件中,然后尝试取消清除。那的确给了我错误“无效的凭证”。
因此,我在两个系统上卸载并重新安装了munge,分发了密钥并以相同的结果重复了该测试。
我想我缺少一些简单的东西。我不知道该怎么做才能正确安装munge。
答案 0 :(得分:1)
这是节点之间的UID / GID不匹配。当然,它在安装指南中有所提及。