将xml或json ...多行读入单个字符串

时间:2015-05-23 09:05:29

标签: json apache-spark apache-spark-sql

我想在pyspark.lf中读取json或xml文件,我的文件在sc.textFIle(json或xml)中分成多行 输入

{
    "employees": [
        {
            "firstName": "John",
            "lastName": "Doe"
        },
        {
            "firstName": "Anna",
            "lastName": "Smith"
        },
        {
            "firstName": "Peter",
            "lastName": "Jones"
        }
    ]
}

它在多行

输出

{"employees:[{"firstName:"John",......]}

每个人都想到一个字符串或一行...... 在pyspark

请帮助我,我是新来的火花

1 个答案:

答案 0 :(得分:0)

如果您可以访问字典文件(我不熟悉PySpark,但表面上看似乎是这样),您可以使用标准的JSON库来“漂亮地打印”它:

>>> import json
>>> my_dict = {'4': 5, '6': 7}
>>> print json.dumps(my_dict, sort_keys=True,
...                  indent=4, separators=(',', ': '))
{
    "4": 5,
    "6": 7
}

https://docs.python.org/2/library/json.html