Python从JSON转换为JSONL

时间:2016-08-12 10:00:05

标签: python json

我希望将标准JSON对象操作到一个对象,其中每一行必须包含一个单独的,自包含的有效JSON对象。见JSON Lines

JSON_file =

[{u'index': 1,
  u'no': 'A',
  u'met': u'1043205'},
 {u'index': 2,
  u'no': 'B',
  u'met': u'000031043206'},
 {u'index': 3,
  u'no': 'C',
  u'met': u'0031043207'}]

To JSONL

{u'index': 1, u'no': 'A', u'met': u'1043205'}
{u'index': 2, u'no': 'B', u'met': u'031043206'}
{u'index': 3, u'no': 'C', u'met': u'0031043207'}

我目前的解决方案是将JSON文件作为文本文件读取,并从头开始删除[,从结尾删除]。因此,在每一行上创建一个有效的JSON对象,而不是包含行的嵌套对象。

我想知道是否有更优雅的解决方案?我怀疑在文件上使用字符串操作可能会出错。

动机是在Spark上将json文件读入RDD。请参阅相关问题 - Reading JSON with Apache Spark - `corrupt_record`

3 个答案:

答案 0 :(得分:5)

您的输入似乎是一系列 Python对象;它当然不是一个JSON文档。

如果您有Python词典列表,那么您只需将每个条目分别转储到一个文件中,然后换行:

import json

with open('output.jsonl', 'w') as outfile:
    for entry in JSON_file:
        json.dump(entry, outfile)
        outfile.write('\n')

json模块的默认配置是输出JSON而不嵌入换行符。

假设您的ABC名称确实是字符串,那么会产生:

{"index": 1, "met": "1043205", "no": "A"}
{"index": 2, "met": "000031043206", "no": "B"}
{"index": 3, "met": "0031043207", "no": "C"}

如果您开始使用包含条目列表的JSON文档,则只需先使用json.load() / json.loads()解析该文档。

答案 1 :(得分:3)

一种简单的方法是在终端中使用 jq 命令。

要在 Debian 和衍生产品上安装 jq

$ sudo apt-get install jq

CentOS/RHEL 用户应该运行:

$ sudo yum -y install https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
$ sudo yum install jq -y

基本用法:

$ jq -c '.[]' some_json.json >> output.jsonl

如果您需要处理大文件,我强烈建议您使用 --stream 标志。这将使 jq 以流模式解析您的 json。

$ jq -c --stream '.[]' some_json.json >> output.json

但是,如果您需要在 python 文件中执行此操作,则可以使用 bigjson ,这是一个在流式模式下解析 JSON 的有用库:

$ pip3 install bigjson

读取一个巨大的 json(在我的例子中,它是 40 GB):

import bigjson

# Reads json file in streaming mode
with open('input_file.json', 'rb') as f:
    json_data = bigjson.load(f)

    # Open output file  
    with open('output_file.jsonl', 'w') as outfile:
        # Iterates over input json
        for data in json_data:
            # Converts json to a Python dict  
            dict_data = data.to_python()
            
            # Saves the output to output file
            outfile.write(json.dumps(dict_data)+"\n")

如果需要,请尝试并行化此代码以提高性能。在这里发布结果:)

文档和源代码:https://github.com/henu/bigjson

答案 2 :(得分:1)

the jsonlines package is made exactly for your use case:

import jsonlines

with jsonlines.open('output.jsonl', 'w') as writer:
    writer.write_all(items)

(yes, i wrote it only after you posted your original question.)