我编写了将CSV和XML文件转换为JSON的代码。 我已经在非常小的文件上测试了这个,代码按预期工作。
在不久的将来,我将使用大量文件,这些文件需要分解成批处理,以便可以将它们处理并解析为JSON,以防止系统因内存使用率过高而崩溃。
是否有任何模块可以帮助我批量处理文本数据?
答案 0 :(得分:0)
也许您可以将pd.read_table与特定的chunksize一起使用来批量读取这些文件
我用它来阅读带有数百万原始文件的巨大csv文件
chunksize = 1000000
for chunk in pd.read_table(r"D:\file.json.gz", chunksize=chunksize, sep="\r\t", engine="python", names=head, compression="gzip"):
... your procesing :-D
然后我加载100万行的批次并用pandas处理它