我想在pyspark.lf中读取json或xml文件,我的文件在sc.textFIle(json或xml)中分成多行 输入
{
"employees": [
{
"firstName": "John",
"lastName": "Doe"
},
{
"firstName": "Anna",
"lastName": "Smith"
},
{
"firstName": "Peter",
"lastName": "Jones"
}
]
}
它在多行
输出
{"employees:[{"firstName:"John",......]}
每个人都想到一个字符串或一行...... 在pyspark
请帮助我,我是新来的火花
答案 0 :(得分:0)
如果您可以访问字典文件(我不熟悉PySpark,但表面上看似乎是这样),您可以使用标准的JSON库来“漂亮地打印”它:
>>> import json
>>> my_dict = {'4': 5, '6': 7}
>>> print json.dumps(my_dict, sort_keys=True,
... indent=4, separators=(',', ': '))
{
"4": 5,
"6": 7
}