工作在Condor Enviroment遇害

时间:2015-05-11 06:34:03

标签: image image-processing kill kill-process condor

我在Condor中运行一个可执行文件,它基本上处理输入图像并将二进制图像保存在给定文件夹中。我在213张图片中使用了这段代码。

我的condor配置文件内容如下:

public interface IHandler<T>
{
}

public class UserHandler : IHanlder<User>
{
}

public class OfficeHandler : IHandler<Office>
{
}

某些图片处理正常,但在某些情况下,我的邮箱中收到以下错误:

universe     = vanilla
executable   = /datasets/me/output_cpen_database/source_codes_techniques/test/vole
arguments    = cmfd -I /datasets/me/cpen_database/scale1/$(Process)/$(Process).png -O /datasets/me/output_cpen_database/scale1/dct/$(Process)/ --numThreads 10 --chan GRAY --featvec DCT --blockSize 16 --minDistEuclidian 50 --kdsort --fastsats --minSameShift 1000 --markRegions --useOrig --writePost --writeMatrix
initialdir   = /datasets/me/output_cpen_database/source_codes_techniques/test
requirements = (OpSysAndVer == "Ubuntu12")
request_cpus   = 5
request_memory = 20000
output       = logs/output-$(Process).log
error        = logs/error-$(Process).log
log          = logs/log-$(Process).log
Notification = Complete
Notify_User = mymail@gmail.com
Queue 214

我在想是否因为内存不足而发生这种情况,但这张图片(名为47)的大小不超过20MB(实际上它有16.7MB)。

正如我之前所说,神鹰为其他一些图像运行此可执行文件。

我是否必须在配置文件中增加request_memory?这里发生了什么?

1 个答案:

答案 0 :(得分:0)

通常,死于信号9的作业意味着您的可执行文件所需的某些共享库存在问题。我要检查的是所有工作是否在特定主机上死亡。如果是这种情况,您可以手动运行代码,看看是否丢失了共享库错误。