很明显,如果write()
调用未以某种方式同步,则从多个进程写入同一文件可能会导致数据损坏。看到另一个问题:Python multiprocessing safely writing to a file。
但是,在尝试出于测试目的重现此可能的错误时,我无法导致文件消息混淆。我想这样做是为了有效地比较有和没有锁安全性。
什么也不做,文件似乎受到某种保护。
import multiprocessing
import random
NUM_WORKERS = 10
LINE_SIZE = 10000
NUM_LINES = 10000
def writer(i):
line = ("%d " % i) * LINE_SIZE + "\n"
with open("file.txt", "a") as file:
for _ in range(NUM_LINES):
file.write(line)
def check(file):
for _ in range(NUM_LINES * NUM_WORKERS):
values = next(file).strip().split()
assert len(values) == LINE_SIZE
assert len(set(values)) == 1
if __name__ == "__main__":
processes = []
for i in range(NUM_WORKERS):
process = multiprocessing.Process(target=writer, args=(i, ))
processes.append(process)
for process in processes:
process.start()
for process in processes:
process.join()
with open("file.txt", "r") as file:
check(file)
我正在使用Linux,我也知道文件写入可能是原子的,具体取决于缓冲区大小:Is file append atomic in UNIX?。
我试图增加邮件的大小,但不会产生损坏的数据。
您知道我可以使用的任何代码示例通过Linux上的多处理来产生损坏的文件吗?
答案 0 :(得分:1)
AFAIU,锁定由内核完成。即使没有要求锁定,您也会看到锁定效果的原因是O_NONBLOCK
文件状态标志默认情况下未设置(我猜是在打开文件时)。
请参阅手册中有关文件状态标志的部分,具体请参见operating modes和man 2 fcntl
。
因此我为您的示例打了补丁,以查看O_NONBLOCK
的影响(实际上,断言现在确实失败了):
--- 1.py.orig 2019-07-05 14:49:13.276289018 +0300
+++ 1.py 2019-07-05 14:51:11.674727731 +0300
@@ -1,5 +1,7 @@
import multiprocessing
import random
+import os
+import fcntl
NUM_WORKERS = 10
LINE_SIZE = 10000
@@ -8,6 +10,8 @@
def writer(i):
line = ("%d " % i) * LINE_SIZE + "\n"
with open("file.txt", "a") as file:
+ flag = fcntl.fcntl(file.fileno(), fcntl.F_GETFD)
+ fcntl.fcntl(file.fileno(), fcntl.F_SETFL, flag | os.O_NONBLOCK)
for _ in range(NUM_LINES):
file.write(line)