我有一个使用线程的Python应用程序如下:
Mutexes,关键部分,队列管理 - 我的线程池库已经在几个较小的项目中进行了测试,所以没有理由认为某些事情被破坏了......
当我有多达几千个任务时,一切正常,但是当我有更多(在这种情况下超过8500)时,一些线程会挂起。 gdb显示它们被卡在_execute child中的python的subprocess.py中(第1131行) - >意味着在调用 os.fork()之后。
gdb:
(gdb) pystack
/opt/python/current/lib/python2.7/subprocess.py (1131): _execute_child
/opt/python/current/lib/python2.7/subprocess.py (681): __init__
/home/olibsup/tools/chelo/checks/checkUtils/osutils/cmdutils.py (115): shcmd
/home/olibsup/tools/chelo/checks/liblist/libWorkers.py (204): workerFunction
/home/olibsup/tools/chelo/checks/checkUtils/pools/thpool.py (160): run
/opt/python/current/lib/python2.7/threading.py (160): __bootstrap_inner
/opt/python/current/lib/python2.7/threading.py (553): __bootstrap
我的ulimit显示:
core file size (blocks, -c) unlimited
data seg size (kbytes, -d) unlimited
file size (blocks, -f) unlimited
pending signals (-i) 139264
max locked memory (kbytes, -l) 32
max memory size (kbytes, -m) unlimited
open files (-n) 1024
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 139264
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
'top'也没有表现出任何可疑之处(至少对我而言):
Cpu(s): 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 16438200k total, 15705272k used, 732928k free, 751640k buffers
Swap: 3148700k total, 44k used, 3148656k free, 11692300k cached
你有什么想法为什么线程挂在那里?
并非所有线程都挂起,一些(10个中的5个)已正确完成(当没有更多任务可用时)。
感谢您的帮助,
布里
答案 0 :(得分:1)
在第1131/1132行的 subprocess.py 中,文件描述符通过os.dup
复制。
出于这个原因,我怀疑您的操作系统正在限制子进程的数量和/或应用程序可用的文件描述符的数量。但是,我不明白为什么os.dup在这种情况下不会引发/抛出异常。
尝试找出您的操作系统限制并保持低于该限制。对于基于UNIX的系统,您可以使用Python的资源模块(尽管我自己从未使用过它):http://docs.python.org/library/resource.html