pyspark读取具有与字符串相同的字段和正确的json结构并解析值的json

时间:2018-09-10 14:39:54

标签: pyspark apache-spark-sql pyspark-sql

我有一个像下面的json

{
"student": {
            "names": ["aaaa","bbbb"],
            "section": ["one", "two"],
            "running": true
    },

    "code": "001"
}

{
    "student": "{\"name\":\"aaaa\"}",
    "code": "002"
}

{
    "student": "aaaaaaaaaaa",
    "code": "003"
}

我在下面的行中阅读

df = sqlContext.read.json(“ file:////home/test/data/info.txt”)

当我打印架构时,它显示如下

root
|-- code: string (nullable = true)
|-- student: string (nullable = true)

将学生打印为字符串,但我希望将学生字段作为json结构

如何将此学生字段转换为json结构,即使以下值被丢弃也没关系
“学生”:“ {\”名称\”:\“ aaaa \”}”和“学生”:“ aaaaaaaaaaaaa”

由于我不知道学生字段中的字段数,因此我无法在读取json时分配架构。

0 个答案:

没有答案