将.gz json文件解压缩到pandas df中

时间:2017-03-09 22:01:09

标签: python json unicode gz

我有这个.gz文件,其中包含许多不同的json文件,我试图将其解压缩然后将其放入数据框中。

要打开我使用的文件:

with gzip.open('part-00002-00010.gz', 'rb') as f:
    stuff = json.loads(json.dumps(f.read()))

这给了我类似的东西:

{"request":{"frameId":372,"timeStamp":1.4726880464087E12,"requestId":"12707","requestHeaders":{"Upgrade-Insecure-Requests":"1","Accept-Language":"en-US,en;q=0.8","Accept-Encoding":"gzip, deflate, sdch, br","User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36","Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"},"tabId":85,"requestType":"main"}}

但是,当我尝试索引“请求”之类的内容时,我得到:

stuff['request']
TypeError: string indices must be integers

然后当我尝试时:

stuff[5]
u'u'

所以似乎stuff变量是unicode,我不能在json树下面选择更多东西(假设这是一个json文件)。

读取文件然后创建pandas数据帧的最佳方法是什么?

0 个答案:

没有答案