使用多处理来使用Python读取多个文件是否有意义?

时间:2014-12-01 12:01:31

标签: python file-io python-multiprocessing

我打算使用多处理来读取一组具有Python多处理功能的小文件。然而,在某种意义上这对我来说很尴尬,因为如果磁盘是旋转的,那么瓶颈是旋转时间甚至 - 虽然我使用多个过程,但总读取时间应与单个过程读取相似。我错了吗 ?你有什么意见?

另外,您是否认为使用多处理可能会导致文件交织在一起,因此这些文件的内容会以某种方式出现偏差?

2 个答案:

答案 0 :(得分:0)

你的推理是合理的,但唯一能找到答案的方法就是通过基准测试(也就是说,并行阅读许多小文件不会提高性能而不是顺序读取它们。)

我并不完全确定你的意思是"交织在一起阅读",但是 - 除非您的代码中存在错误或者在您阅读它们时文件正在被更改 - 您将获得完全相同的内容,无论你如何阅读它。

答案 1 :(得分:0)

你确实是对的,瓶颈将是 disk-IO

然而,真正了解的唯一方法是测量两种方法。

如果你对文件有影响,你可以选择一个更大的文件,而不是许多小文件。