即使目标存在,也会在复制输出文件时发生扭矩错误

时间:2014-08-28 20:11:30

标签: nfs pbs torque

大多数时候我们的扭矩工作运行良好。我们偶尔会收到电子邮件说:

PBS Job Id: 1234.master.example.com
Job Name:   myjob
Exec host:  worker1.example.com/38
An error has occurred processing your job, see below.
request to copy stageout files failed on node
'worker1.example.com/38' for job
1234.master.example.com

Unable to copy file
/var/spool/torque/spool/1234.master.example.com.OU to
/home/someuser/myjob.log,
error 1
*** error from copy
/bin/cp: cannot stat
`/var/spool/torque/spool/1234.master.example.com.OU': No
such file or directory
*** end error output

现在,我们已正确设置usecp,每台计算机上都安装了/home。大部分时间一切正常,日志文件被复制到目的地,没有错误的电子邮件。我们只是间歇性地收到错误电子邮件。现在奇怪的是,即使我们收到这些错误电子邮件,日志文件实际上也存在于我们期望的目的地(例如:/home/someuser/myjob.log)。看起来日志文件已成功复制,但电子邮件除外。

我认为可能会发生的事情如下:

  1. 作业成功完成,并将日志文件从/ var / spool成功复制到共享NFS目录中的目标位置。
  2. 删除/ var / spool下执行主机上的日志文件。
  3. 妈妈被要求再次运行退出程序(可能是妈妈和服务器之间的沟通中断了,服务器还没有认为工作已经退出)。
  4. 妈妈试图再次将日志文件从/ var / spool复制到NFS上的目的地并失败,因为它们在成功复制后已在步骤2中删除。
  5. 但它很难调试,因为它只是间歇性地发生。

0 个答案:

没有答案