Question

我编写了将CSV和XML文件转换为JSON的代码。我已经在非常小的文件上测试了这个，代码按预期工作。

在不久的将来，我将使用大量文件，这些文件需要分解成批处理，以便可以将它们处理并解析为JSON，以防止系统因内存使用率过高而崩溃。

是否有任何模块可以帮助我批量处理文本数据？

Answer 1

也许您可以将pd.read_table与特定的chunksize一起使用来批量读取这些文件

我用它来阅读带有数百万原始文件的巨大csv文件

chunksize = 1000000

for chunk in pd.read_table(r"D:\file.json.gz", chunksize=chunksize, sep="\r\t", engine="python", names=head, compression="gzip"):
... your procesing :-D

然后我加载100万行的批次并用pandas处理它

如何将JSON转换分解为批次？

1 个答案: