我需要从mixpanel中提取数据,目前我对数据进行“原始导出”。原始导出是一个jsonl,它通过压缩来实现。
我的问题是我必须(根据API)读取整个压缩文件(.read()
),一旦我解码它(.decode('utf-8')
),它用于我的大部分机器内存。
我想知道是否有办法逐行解析读取文件对象,以便我可以逐行解码? make shift解决方案一直是减少我拉入的数据并迭代拉取。
答案 0 :(得分:0)
为了结束这个问题。我联系了Mixpanel工程团队,简短的回答是进行增量拉取,解压缩到磁盘,然后根据需要进行处理。