“过滤”大量JSON文件的最快,最有效的方法

时间:2014-11-10 07:00:13

标签: python json parsing

我有大约20000个(压缩的)JSON文件,每个文件包含平均100,000行,每行包含1kb到12kb的JSON对象。

我正在使用EMR来解析此数据并提取必要的密钥。由于这是大量数据,我正在寻找解析它的最佳方法。

我对每个文件中只有~8-10%的行感兴趣;其中包含特定键reqKey1。除此之外,它们还必须包含特定的键值组合:reqKey2: True

从中提取所需数据的最快方法是什么?最容易想到的就是简单地解析每个问题,查找密钥reqKey1并检查reqKey2的值。但我想解析每一行都会非常昂贵,特别是考虑到>最终将丢弃90%的线路。

任何提示?

0 个答案:

没有答案