标签: python json python-3.x parallel-processing mpi
我有一个很大的JSON文件,其大小以GB为单位。该文件包含推文数据。我需要使用MPI for python多进程读取此文件,以便每个进程可以同时从其自己的部分读取文件。
当前,我正在按文件大小逐块潜水。但是问题是它破坏了我的JSON数据。由于文件可能会以创建无效JSON数据的方式进行分割。
如何在不干扰内部JSON对象的情况下分割文件。