Sun GridEngine作业数组随机读取文件失败

时间:2017-05-26 01:56:10

标签: sungridengine

我使用SGE任务数组功能来完成我的工作:首先阅读原型,然后读取不同的数据进行计算。但是,有时,在阅读原型时,作业失败。错误表明原型不存在或完整。但我确信原型文件存在且完整

qsub -q HTS_QUEUE -R y -r y -S /usr/bin/perl -cwd -t 1-$nphonemes Training.pl ./Config/Config.pm.2

以上是我的命令。

请给我一些建议。谢谢。

1 个答案:

答案 0 :(得分:0)

我猜测原型是某个共享文件系统上的文件?

  1. 如果是这种情况,一种可能性就是相关的文件系统 没有安装在作业运行的节点上。

  2. 另一种可能性是该文件位于网络文件系统上 有时会产生瞬态错误,例如软安装的NFS。如果是这种情况,并且您无法或者不想修改代码来处理错误,那么您可以将实际代码与复制原型和结果的例程一起包含在本地节点中检查和处理瞬态错误时的存储。然后处理该副本。