我尝试使用CfnCluster 1.2.1进行GPU计算,并且使用基于Ubuntu 14.04 CfnCluster AMI的自定义AMI。
在CloudFormation控制台中正确创建了所有内容,但是当我使用主服务器中的qsub向Oracle Grid Engine提交新的测试任务时,根据qstat,它永远不会从队列中执行。它总是保持状态" qw"并且永远不会进入状态" r"。
它似乎与Amazon Linux AMI(使用用户ec2-user而不是ubuntu)和完全相同的配置一起正常工作。此外,主实例会将剩余任务的数量作为度量标准通知群集,并且新的计算实例会因此自动调整。
CfnCluster或Oracle Grid Engine提供了哪些机制来进一步调试?我查看了日志文件,但没有找到任何相关内容。这种行为可能是什么原因?
谢谢,
迭
答案 0 :(得分:1)
与https://stackoverflow.com/a/37324418/704265类似
从您的qhost输出,看起来您的机器“ip-10-0-0-47”已在SGE中正确配置。但是,在“ip-10-0-0-47”上,sge_execd未运行或未正确配置。如果是,qhost将报告“ip-10-0-0-47”的统计数据。
答案 1 :(得分:0)
我想我找到了解决方案。它似乎与https://github.com/awslabs/cfncluster/issues/86#issuecomment-196966385
中描述的问题相同我通过在CfnCluster配置文件中添加以下行来修复它:
base_os = ubuntu1404
如果指定了custom_ami但未指定base_os,则默认使用Amazon Linux,它使用不同的方法配置SGE。如果base_os和custom_ami操作系统不同,则CfnCluster执行的SGE配置可能存在问题。