我打算使用多处理来读取一组具有Python多处理功能的小文件。然而,在某种意义上这对我来说很尴尬,因为如果磁盘是旋转的,那么瓶颈是旋转时间甚至 - 虽然我使用多个过程,但总读取时间应与单个过程读取相似。我错了吗 ?你有什么意见?
另外,您是否认为使用多处理可能会导致文件交织在一起,因此这些文件的内容会以某种方式出现偏差?
答案 0 :(得分:0)
你的推理是合理的,但唯一能找到答案的方法就是通过基准测试(也就是说,并行阅读许多小文件不会提高性能而不是顺序读取它们。)
我并不完全确定你的意思是"交织在一起阅读",但是 - 除非您的代码中存在错误或者在您阅读它们时文件正在被更改 - 您将获得完全相同的内容,无论你如何阅读它。
答案 1 :(得分:0)
你确实是对的,瓶颈将是 disk-IO 。
然而,真正了解的唯一方法是测量两种方法。
如果你对文件有影响,你可以选择一个更大的文件,而不是许多小文件。