我有JSON,带有字符串格式的结构类型数组。尝试在json文件中写入相同内容时出现以下错误。我使用此输出文件进行模式验证,由于特殊字符而导致失败。
from pyspark.sql import Row
from pyspark.sql import DataFrame
from pyspark.sql.types import *
import pandas as pd
jsondata1 = '{"activity":[{"activity":"test","activityValue":"1"},{"activity":"test","activityValue":"1"}]}'
my_automatic_schema = json_schema.dumps(jsondata1)
my_automatic_schema
atoDF = sqlContext.read.json(sc.parallelize([my_automatic_schema]))
atoDF.write.format("json").save("mnt//Users/name/test3.json")
我期望以下输出:
'{"activity": [{"activityValue": "str", "activity": "str"}, "..."]}'
并在我的JSON中获取以下输出
{"activity":["{\"activityValue\":\"str\",\"activity\":\"str\"}","..."]}
请帮助我提供有关如何消除输出文件中特殊字符的解决方案
答案 0 :(得分:0)
尝试使用这样的原始字符串:
jsondata1 = r'{"activity":[{"activity":"test","activityValue":"1"},{"activity":"test","activityValue":"1"}]}'