应用错误收集

一个。如果它是可加入的，则所有线程的行数大致相等，您可以：

假设线程池大小为N，第一个线程寻找文件偏移0并读取[0,30GB / N），第二个线程寻求偏移30GB / N，读取[30GB / N，30GB / N * 2]等
第二个线程可能不在一行的开头，而是在一行的中间。没关系。只需跳过paritial行，然后阅读完整的行。第一个线程可以以部分线结束。没关系，只需继续阅读，直到阅读＆＃39; \ n＆＃39;。剩余的线程做同样的事情。

B中。如果所有线程必须具有完全相同的行数，那么说1000行，您可以：

方法A读取文件1次。方法B读取文件2次。

使用方法A或B，您可以让所有线程并行处理文件（转换，提取，清理......）。但是如果处理速度非常快，那么界限就是磁盘速度。然后你的应用程序是IO绑定的。你应该只有一个线程读取文件并按顺序进行处理。