我正在尝试建立集群。到目前为止,我仅在1个主机和1个从机上对其进行测试。从主服务器运行脚本,它将开始打印HelloWorld,但随后出现以下错误:
file_id:5_mb_data
它会继续打印HelloWorld,过一会儿:
Primary job terminated normally, but 1 process returned a non-zero exit code.. Per user-direction, the job has been aborted.
然后代码停止。偶然地,我尝试从从属服务器运行脚本,并且该脚本可以运行。我不知道为什么。 我设置了无密码的SSH并运行位于nfs挂载文件夹中的文件。 你能帮我吗?
谢谢
答案 0 :(得分:0)
已解决:我已经解析了所有修改过的配置文件,最后/ etc / hosts中出现错误。这与程序从节点启动到主节点(而不是相反)有关。关于程序停止,这与节点无法找到要运行的文件有关。修复了重新设置nfs的问题。 感谢您的帮助,希望这对其他用户有用。