解析混乱的JSON字符串

时间:2019-04-04 14:26:49

标签: pyspark

我在pyspark数据框列中有一系列深层嵌套的json字符串。我需要根据这些字符串的内容进行分解和过滤,并希望将它们添加为列。我尝试定义StructType,但是每次它继续返回空DF时。

尝试使用json_tuples进行解析,但是没有公共键可以重新加入数据帧,并且行号不匹配?我认为可能与某些空字段有关

子字段可以为空

示例JSON

{
  "TIME": "datatime",
  "SID": "yjhrtr",
  "ID": {
    "Source": "Person",
    "AuthIFO": {
      "Prov": "Abc",
      "IOI": "123",
      "DETAILS": {
        "Id": "12345",
        "SId": "ABCDE"
      }
    }
  },
  "Content": {
    "User1": "AB878A",
    "UserInfo": "False",
    "D": "ghgf64G",
    "T": "yjuyjtyfrZ6",
    "Tname": "WE ARE THE WORLD",
    "ST": null,
    "TID": "BPV 1431: 1",
    "src": "test",
    "OT": "test2",
    "OA": "test3",
    "OP": "test34
  },
  "Test": false
}

0 个答案:

没有答案