如何更快地将数据从json解析到DataFrame?

时间:2019-04-09 17:04:34

标签: python json pandas parsing optimization

我有一个总大小为3gb的json文件。我需要将一些数据解析到Pandas Dataframe。我已经使用自定义库来解析json使其速度更快,但是它仍然太慢。它仅在一个线程中工作,这也是一个问题。我怎样才能使其更快?主要问题是从60it / s开始,但是在第50000次迭代时速度降低到5it / s,但是RAM仍未完全使用,所以这不是问题。这是我在做什么的示例:

import tqdm
with open('data/train.jsonlines') as fin:
    for line in tqdm.tqdm_notebook(fin):
        record = ujson.loads(line)
        for target in record['damage_targets']:
            df_train.loc[record['id'], 'target_{}'.format(target)] = record["damage_targets"][target]

0 个答案:

没有答案