大多数时候我们的扭矩工作运行良好。我们偶尔会收到电子邮件说:
PBS Job Id: 1234.master.example.com
Job Name: myjob
Exec host: worker1.example.com/38
An error has occurred processing your job, see below.
request to copy stageout files failed on node
'worker1.example.com/38' for job
1234.master.example.com
Unable to copy file
/var/spool/torque/spool/1234.master.example.com.OU to
/home/someuser/myjob.log,
error 1
*** error from copy
/bin/cp: cannot stat
`/var/spool/torque/spool/1234.master.example.com.OU': No
such file or directory
*** end error output
现在,我们已正确设置usecp
,每台计算机上都安装了/home
。大部分时间一切正常,日志文件被复制到目的地,没有错误的电子邮件。我们只是间歇性地收到错误电子邮件。现在奇怪的是,即使我们收到这些错误电子邮件,日志文件实际上也存在于我们期望的目的地(例如:/home/someuser/myjob.log
)。看起来日志文件已成功复制,但电子邮件除外。
我认为可能会发生的事情如下:
但它很难调试,因为它只是间歇性地发生。