Condor未在所有可用的计算机/处理器上运行

时间:2018-06-07 04:41:59

标签: condor

condor_status显示470个可用,298个无人认领,但我的作业一次只运行172个。无论我多少次尝试提交作业,我仍然只能获得172个。如果我改变“套接字”,我会得到更多或更少,但永远不会接近470可用。

我的要求很简单,每台机器都应符合以下标准:

requirements = (((Target.OpSys=="WINDOWS") || (Target.OpSys=="WINNT61")) && (Target.Arch=="X86_64"))

我已经检查了日志文件,并且我的所有运行似乎都有足够的磁盘空间和内存,而我看不到任何似乎限制了这些工作的内容。对我来说唯一可疑的是,对于不运行的作业,分配的磁盘和内存比使用的多得多,似乎cpu从未使用过。

(1) Normal termination (return value -1073741515)
    Usr 0 00:00:01, Sys 0 00:00:00  -  Run Remote Usage
    Usr 0 00:00:00, Sys 0 00:00:00  -  Run Local Usage
    Usr 0 00:00:01, Sys 0 00:00:00  -  Total Remote Usage
    Usr 0 00:00:00, Sys 0 00:00:00  -  Total Local Usage
1047  -  Run Bytes Sent By Job
92422376  -  Run Bytes Received By Job
1047  -  Total Bytes Sent By Job
92422376  -  Total Bytes Received By Job
Partitionable Resources :    Usage  Request Allocated
   Cpus                 :                 1         1
   Disk (KB)            :   428810   400000 117456696
   Memory (MB)          :       19      400      2042

对于要运行的作业,它们通常使用&lt; 400 MB内存和<400,000 KB磁盘空间。我尝试在提交文件中设置这些要求,但似乎没有改变任何内容。

368  -  MemoryUsage of job (MB)
376144  -  ResidentSetSize of job (KB)

关于可能限制我可以运行的进程数量的任何线索?

1 个答案:

答案 0 :(得分:2)

从神鹰的角度来看,如果您在作业日志中看到这样的条目

(1) Normal termination (return value -1073741515) 
    Usr 0 00:00:01, Sys 0 00:00:00  -  Run Remote Usage
    Usr 0 00:00:00, Sys 0 00:00:00  -  Run Local Usage
    Usr 0 00:00:01, Sys 0 00:00:00  -  Total Remote Usage
    Usr 0 00:00:00, Sys 0 00:00:00  -  Total Local Usage

这意味着Condor开始了该作业,并且该作业使用一些退出代码退出了(这是“正常终止”消息)。在这种情况下,退出代码-1073741515以十六进制表示为0xC0000135。这是一个特殊的Windows退出代码,表示缺少DLL。此应用程序是否需要一个预先安装在您的某些计算机上但不是其他计算机上的DLL?