我正在尝试运行一个应该在多个处理器上运行的编译program。但是使用相同的数据,有时这个程序并行运行,有时它不会(使用相同的PBS脚本文件!)。我怀疑某些计算节点出现了问题,这些计算节点不能让它并行运行(我不能选择我想要的计算节点)。如果这是程序中的错误或计算节点出现问题,我该如何排除故障?
根据系统管理员的说法,我使用的是ulimit -s 100000
,但这并没有改变任何内容。此外,该程序不是mpi程序(仅在单个节点上运行,具有多个处理器)。
我运行的代码如下:
quorum_error_correct_reads -q 68 \
--contaminant=/data004/software/GIF/packages/masurca/2.3.0rc1/bin/../share/adapter.jf \
-m 1 -s 1 -g 1 -a 3 --thread=32 -w 10 -e 3 \
quorum_mer_db.jf aa.renamed.fastq ab.renamed.fastq ac.renamed.fastq ad.renamed.fastq ae.renamed.fastq af.renamed.fastq ag.renamed.fastq \
--no-discard -o pe.cor --verbose
感谢您提供任何建议。我将非常感谢您的帮助! PS:我没有sudo访问权。
编辑:我知道它应该使用多个处理器,因为当我进入节点并执行top -c
时,我可以看到(上面的命令)有时像3200 % CPU
一样运行(始终)有时只有100 % CPU
。这是唯一涉及的步骤,该程序中没有其他子流程。此外,我正在使用HPC,我将作业提交到计算节点,每个计算节点有32个proc,512GB RAM。