如何使用MPI通过多个进程读取大型JSON文件。每个进程可以同时读取其文件块的位置

时间:2019-04-04 07:42:12

标签: python json python-3.x parallel-processing mpi

我有一个很大的JSON文件,其大小以GB为单位。该文件包含推文数据。我需要使用MPI for python多进程读取此文件,以便每个进程可以同时从其自己的部分读取文件。

当前,我正在按文件大小逐块潜水。但是问题是它破坏了我的JSON数据。由于文件可能会以创建无效JSON数据的方式进行分割。

如何在不干扰内部JSON对象的情况下分割文件。

0 个答案:

没有答案