Question

我想在pyspark.lf中读取json或xml文件，我的文件在sc.textFIle（json或xml）中分成多行输入

{
    "employees": [
        {
            "firstName": "John",
            "lastName": "Doe"
        },
        {
            "firstName": "Anna",
            "lastName": "Smith"
        },
        {
            "firstName": "Peter",
            "lastName": "Jones"
        }
    ]
}

它在多行

输出

{"employees:[{"firstName:"John",......]}

每个人都想到一个字符串或一行...... 在pyspark

请帮助我，我是新来的火花

Answer 1

如果您可以访问字典文件（我不熟悉PySpark，但表面上看似乎是这样），您可以使用标准的JSON库来“漂亮地打印”它：

>>> import json
>>> my_dict = {'4': 5, '6': 7}
>>> print json.dumps(my_dict, sort_keys=True,
...                  indent=4, separators=(',', ': '))
{
    "4": 5,
    "6": 7
}

https://docs.python.org/2/library/json.html

将xml或json ...多行读入单个字符串

1 个答案: