我有三个文件,每个文件包含近30万条记录。已经编写了python脚本来使用某些业务逻辑处理这些文件,并能够成功创建输出文件。此过程将在5分钟内完成。
我正在使用相同的脚本来处理具有大量数据的文件(所有三个输入文件都包含大约3000万条记录)。现在,处理需要花费数小时,并且可以持续运行很长时间。
所以我正在考虑根据唯一ID的最后两位将文件分成100个小块,并对其进行并行处理。我可以使用任何数据管道程序包来执行此操作吗?
顺便说一句,我正在VDI机器上运行此过程。
答案 0 :(得分:0)
我不确定该函数是否使用任何API。但是您可以尝试使用多处理和多线程处理大量数据