JSON中的无效字符

时间:2019-08-02 19:39:20

标签: python pyspark apache-spark-sql pypi azure-databricks

我有JSON,带有字符串格式的结构类型数组。尝试在json文件中写入相同内容时出现以下错误。我使用此输出文件进行模式验证,由于特殊字符而导致失败。

from pyspark.sql import Row
from pyspark.sql import DataFrame
from pyspark.sql.types import * 
import pandas as pd

jsondata1 = '{"activity":[{"activity":"test","activityValue":"1"},{"activity":"test","activityValue":"1"}]}'
my_automatic_schema = json_schema.dumps(jsondata1)
my_automatic_schema

atoDF = sqlContext.read.json(sc.parallelize([my_automatic_schema]))
atoDF.write.format("json").save("mnt//Users/name/test3.json")

我期望以下输出: '{"activity": [{"activityValue": "str", "activity": "str"}, "..."]}'

并在我的JSON中获取以下输出 {"activity":["{\"activityValue\":\"str\",\"activity\":\"str\"}","..."]}

请帮助我提供有关如何消除输出文件中特殊字符的解决方案

1 个答案:

答案 0 :(得分:0)

尝试使用这样的原始字符串:

jsondata1 = r'{"activity":[{"activity":"test","activityValue":"1"},{"activity":"test","activityValue":"1"}]}'