为什么python DRMAA库(drmaa-python)有时无法确定提交给SGE(UNDETERMINED)的作业的状态?

时间:2013-01-10 08:45:23

标签: python sungridengine drmaa

我正在使用drmaa-python向SGE(Sun Grid Engine)提交和监视作业。我在GUI中有以下状态

  • 在队列中处于活动状态的作业
  • 正在运行的工作
  • 已完成的工作
  • 失败的工作
  • 状态未确定

有时我会通过状态未确定获得少量工作。当我在SGE主机的终端中使用 qstat 检查作业状态时,我可以看到所有作业都在运行而不会失败。 状态未确定通常会误导用户,因为用户可能认为状态未确定作业存在某些问题。

所以,我知道问题不在于SGE,而在于drmaa-python库。

有谁知道为什么drmaa-python无法确定状态?

1 个答案:

答案 0 :(得分:2)

drmaa-python只是一个围绕DRMAA C库的瘦ctype包装器,没有任何专用逻辑。因此,您看到的UNDETERMINED状态是SGE DRMAA C库在您询问的那一刻提供的。

据我所知,SGE的DRMAA C库有时无法获取状态。我建议在python应用程序中添加一些自定义重试逻辑,只需重新询问调度程序。