使用线程和进程并发写入同一文件

时间:2013-08-23 22:23:17

标签: python multithreading synchronization multiprocessing

确保在使用许多线程和进程时文件永远不会被破坏的正确解决方案是什么。

线程的

版本,关心打开错误。

lock = threading.RLock()
with lock:
   try:
     f = open(file, 'a')
     try:
        f.write('sth')
     finally:
        f.close() # try close in any circumstances if open passed
   except:
     pass # when open failed

对于进程,我猜必须使用multiprocessing.Lock

但如果我想要2个进程,并且第一个进程拥有2个线程(每个进程使用一个文件)

只是理论,但我想知道如何将同步与线程和进程混合。 线程是否从进程“继承”它,所以只需要进程之间的同步?

和2.我不确定上面的代码是否需要嵌套try以防写入失败,我们想要关闭打开的文件(如果在锁定释放后它将保持打开状态)

1 个答案:

答案 0 :(得分:10)

虽然the docs并未完全清楚,但多处理同步原语实际上也会同步线程。

例如,如果您运行此代码:

import multiprocessing
import sys
import threading
import time

lock = multiprocessing.Lock()

def f(i):
    with lock:
        for _ in range(10):
            sys.stderr.write(i)
            time.sleep(1)

t1 = threading.Thread(target=f, args=['1'])
t2 = threading.Thread(target=f, args=['2'])
t1.start()
t2.start()
t1.join()
t2.join()

...输出将始终为111111111122222222222222222221111111111,而不是两者的混合。

锁是在Windows上的Win32内核同步对象之上实现的,在支持它们的POSIX平台上实现的信号量,而在其他平台上根本没有实现。 (您可以使用import multiprocessing.semaphore对此进行测试,这将在其他平台上引发ImportError,如文档中所述。)


话虽如此,只要你总是以正确的顺序使用它们,就必须安全才能拥有两级锁定 - 也就是说,永远不要抓住{{1}除非您可以保证您的流程具有threading.Lock

如果你巧妙地这样做,它可以带来性能上的好处。 (Windows上和某些POSIX平台上的跨进程锁可能比进程内锁慢几个数量级。)

如果你只是以明显的方式做到(只在multiprocessing.Lock块内with threadlock:),它显然不会有助于提高性能,实际上会减慢一些事情(虽然可能还不足以衡量),它不会增加任何直接的好处。当然,你的读者会知道你的代码是正确的,即使他们不知道with processlock:锁在线程之间工作,在某些情况下调试进程内死锁比调试进程间死锁要容易得多......但是我在大多数情况下,不要认为其中任何一个都是足够复杂的理由。