如何在Python中最好地压平NDJson数据

时间:2018-06-10 19:43:02

标签: python ndjson

我有一个巨大的文件(> 400MB)NDJson格式的数据,并喜欢将其展平为表格格式以供进一步分析。

我开始手动迭代各种对象,但有些是相当深的,甚至可能会随着时间而改变,所以我希望有一个更通用的方法。

我确信pandas lib会提供一些东西,但找不到任何可以帮助我的情况。此外,我发现的其他几个库似乎没有“完全”提供我所希望的(flatten_json)。这一切似乎都很早。

此时有可能没有好的(快速和简单)解决这个问题吗?

感谢任何帮助

1 个答案:

答案 0 :(得分:2)

pandas read_json有一个布尔参数lines,将其设置为True以读取ndjsons

data_frame = pd.read_json('ndjson_file.json', lines=True)