如何将JSON转换分解为批次?

时间:2017-06-12 11:12:50

标签: python pandas parsing batch-file memory-management

我编写了将CSV和XML文件转换为JSON的代码。 我已经在非常小的文件上测试了这个,代码按预期工作。

在不久的将来,我将使用大量文件,这些文件需要分解成批处理,以便可以将它们处理并解析为JSON,以防止系统因内存使用率过高而崩溃。

是否有任何模块可以帮助我批量处理文本数据?

1 个答案:

答案 0 :(得分:0)

也许您可以将pd.read_table与特定的chunksize一起使用来批量读取这些文件

我用它来阅读带有数百万原始文件的巨大csv文件

chunksize = 1000000

for chunk in pd.read_table(r"D:\file.json.gz", chunksize=chunksize, sep="\r\t", engine="python", names=head, compression="gzip"):
... your procesing :-D

然后我加载100万行的批次并用pandas处理它