逐行解析已读取对象的方法

时间:2015-11-30 08:35:16

标签: python

我需要从mixpanel中提取数据,目前我对数据进行“原始导出”。原始导出是一个jsonl,它通过压缩来实现。

我的问题是我必须(根据API)读取整个压缩文件(.read()),一旦我解码它(.decode('utf-8')),它用于我的大部分机器内存。

我想知道是否有办法逐行解析读取文件对象,以便我可以逐行解码? make shift解决方案一直是减少我拉入的数据并迭代拉取。

1 个答案:

答案 0 :(得分:0)

为了结束这个问题。我联系了Mixpanel工程团队,简短的回答是进行增量拉取,解压缩到磁盘,然后根据需要进行处理。