我有大约20000个(压缩的)JSON文件,每个文件包含平均100,000行,每行包含1kb到12kb的JSON对象。
我正在使用EMR来解析此数据并提取必要的密钥。由于这是大量数据,我正在寻找解析它的最佳方法。
我对每个文件中只有~8-10%的行感兴趣;其中包含特定键reqKey1
。除此之外,它们还必须包含特定的键值组合:reqKey2: True
。
从中提取所需数据的最快方法是什么?最容易想到的就是简单地解析每个问题,查找密钥reqKey1
并检查reqKey2
的值。但我想解析每一行都会非常昂贵,特别是考虑到>最终将丢弃90%的线路。
任何提示?