Python的线程陷入了Popen.communicate

时间:2011-09-16 14:58:14

标签: python multithreading process

我有一个使用线程的Python应用程序如下:

  1. 创建任务队列(队列模块)
  2. 创建10个线程并传递给每个队列对象
  3. 将任务放入队列(总共约8500个任务)
  4. 每个帖子:
    • 使用Popen.communicate()
    • 执行任务并运行一些Linux命令
  5. Mutexes,关键部分,队列管理 - 我的线程池库已经在几个较小的项目中进行了测试,所以没有理由认为某些事情被破坏了......

    当我有多达几千个任务时,一切正常,但是当我有更多(在这种情况下超过8500)时,一些线程会挂起。 gdb显示它们被卡在_execute child中的python的subprocess.py中(第1131行) - >意味着在调用 os.fork()之后。

    gdb:

     (gdb) pystack
     /opt/python/current/lib/python2.7/subprocess.py (1131): _execute_child
     /opt/python/current/lib/python2.7/subprocess.py (681): __init__
     /home/olibsup/tools/chelo/checks/checkUtils/osutils/cmdutils.py (115): shcmd
     /home/olibsup/tools/chelo/checks/liblist/libWorkers.py (204): workerFunction
     /home/olibsup/tools/chelo/checks/checkUtils/pools/thpool.py (160): run
     /opt/python/current/lib/python2.7/threading.py (160): __bootstrap_inner
     /opt/python/current/lib/python2.7/threading.py (553): __bootstrap
    

    我的ulimit显示:

    core file size          (blocks, -c) unlimited
    data seg size           (kbytes, -d) unlimited
    file size               (blocks, -f) unlimited
    pending signals                 (-i) 139264
    max locked memory       (kbytes, -l) 32
    max memory size         (kbytes, -m) unlimited
    open files                      (-n) 1024
    pipe size            (512 bytes, -p) 8
    POSIX message queues     (bytes, -q) 819200
    stack size              (kbytes, -s) 8192
    cpu time               (seconds, -t) unlimited
    max user processes              (-u) 139264
    virtual memory          (kbytes, -v) unlimited
    file locks                      (-x) unlimited
    

    'top'也没有表现出任何可疑之处(至少对我而言):

    Cpu(s):  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
    Mem:  16438200k total, 15705272k used,   732928k free,   751640k buffers
    Swap:  3148700k total,       44k used,  3148656k free, 11692300k cached
    

    你有什么想法为什么线程挂在那里?
    并非所有线程都挂起,一些(10个中的5个)已正确完成(当没有更多任务可用时)。

    感谢您的帮助,
    布里

1 个答案:

答案 0 :(得分:1)

在第1131/1132行的 subprocess.py 中,文件描述符通过os.dup复制。

出于这个原因,我怀疑您的操作系统正在限制子进程的数量和/或应用程序可用的文件描述符的数量。但是,我不明白为什么os.dup在这种情况下不会引发/抛出异常。

尝试找出您的操作系统限制并保持低于该限制。对于基于UNIX的系统,您可以使用Python的资源模块(尽管我自己从未使用过它):http://docs.python.org/library/resource.html