Question

我想知道是否有一种以内存有效的方式将多记录JSON文件（每行是JSON dict）读入pandas数据帧。下面是一个带有工作解决方案的2行示例，我需要它可能用于非常大量的记录。示例用法是处理来自Hadoop Pig JSonStorage函数的输出。

import json
import pandas as pd

test='''{"a":1,"b":2}
{"a":3,"b":4}'''
#df=pd.read_json(test,orient='records') doesn't work, expects []

l=[ json.loads(l) for l in test.splitlines()]
df=pd.DataFrame(l)

Answer 1

注意：现在read_json支持行分隔的json（自0.19.0开始）：

In [31]: pd.read_json('{"a":1,"b":2}\n{"a":3,"b":4}', lines=True)
Out[31]:
   a  b
0  1  2
1  3  4

或使用文件/文件路径而不是json字符串：

pd.read_json(json_file, lines=True)

这将取决于你的DataFrames的大小更快，但另一个选择是使用str.join粉碎你的多行“JSON”（注意：它是无效的json），进入有效的json并使用read_json：

In [11]: '[%s]' % ','.join(test.splitlines())
Out[11]: '[{"a":1,"b":2},{"a":3,"b":4}]'

对于这个微小的例子，这个速度较慢，如果大约100，那么如果它更大的话就会有相似的，显着的增益......

In [21]: %timeit pd.read_json('[%s]' % ','.join(test.splitlines()))
1000 loops, best of 3: 977 µs per loop

In [22]: %timeit l=[ json.loads(l) for l in test.splitlines()]; df = pd.DataFrame(l)
1000 loops, best of 3: 282 µs per loop

In [23]: test_100 = '\n'.join([test] * 100)

In [24]: %timeit pd.read_json('[%s]' % ','.join(test_100.splitlines()))
1000 loops, best of 3: 1.25 ms per loop

In [25]: %timeit l = [json.loads(l) for l in test_100.splitlines()]; df = pd.DataFrame(l)
1000 loops, best of 3: 1.25 ms per loop

In [26]: test_1000 = '\n'.join([test] * 1000)

In [27]: %timeit l = [json.loads(l) for l in test_1000.splitlines()]; df = pd.DataFrame(l)
100 loops, best of 3: 9.78 ms per loop

In [28]: %timeit pd.read_json('[%s]' % ','.join(test_1000.splitlines()))
100 loops, best of 3: 3.36 ms per loop

注意：当时加入的速度非常快。

Answer 2

如果您正在尝试节省内存，那么一次读取一行文件会更有效：

with open('test.json') as f:
    data = pd.DataFrame(json.loads(line) for line in f)

此外，如果你import simplejson as json，simplejson附带的已编译C扩展比纯Python json模块快得多。

Answer 3

截至Pandas 0.19，read_json原生支持line-delimited JSON：

pd.read_json(jsonfile, lines=True)

Answer 4

++++++++更新++++++++++++++

从v0.19开始，Pandas原生支持这一点（参见https://github.com/pandas-dev/pandas/pull/13351）。跑吧：

df=pd.read_json('test.json', lines=True)

++++++++++++++++++++++++++++++++++++++++++++++++

现有答案很好，但是对于一些变化，这是实现目标的另一种方法，需要在python之外进行简单的预处理步骤，以便pd.read_json()可以使用数据。

安装jq https://stedolan.github.io/jq/。
使用cat test.json | jq -c --slurp . > valid_test.json
使用df=pd.read_json('valid_test.json')

在ipython notebook中，您可以使用

直接从单元格界面运行shell命令

!cat test.json | jq -c --slurp . > valid_test.json
df=pd.read_json('valid_test.json')

将多个JSON记录读入Pandas数据帧

4 个答案: