应用错误收集

将文件分成小块并进行处理

时间：2019-06-21 01:35:48

标签： python data-pipeline

我有三个文件，每个文件包含近30万条记录。已经编写了python脚本来使用某些业务逻辑处理这些文件，并能够成功创建输出文件。此过程将在5分钟内完成。

我正在使用相同的脚本来处理具有大量数据的文件（所有三个输入文件都包含大约3000万条记录）。现在，处理需要花费数小时，并且可以持续运行很长时间。

所以我正在考虑根据唯一ID的最后两位将文件分成100个小块，并对其进行并行处理。我可以使用任何数据管道程序包来执行此操作吗？

顺便说一句，我正在VDI机器上运行此过程。

1 个答案:

答案 0 :(得分：0)

我不确定该函数是否使用任何API。但是您可以尝试使用多处理和多线程处理大量数据