Question

我在pyspark数据框列中有一系列深层嵌套的json字符串。我需要根据这些字符串的内容进行分解和过滤，并希望将它们添加为列。我尝试定义StructType，但是每次它继续返回空DF时。

尝试使用json_tuples进行解析，但是没有公共键可以重新加入数据帧，并且行号不匹配？我认为可能与某些空字段有关

子字段可以为空

示例JSON

{
  "TIME": "datatime",
  "SID": "yjhrtr",
  "ID": {
    "Source": "Person",
    "AuthIFO": {
      "Prov": "Abc",
      "IOI": "123",
      "DETAILS": {
        "Id": "12345",
        "SId": "ABCDE"
      }
    }
  },
  "Content": {
    "User1": "AB878A",
    "UserInfo": "False",
    "D": "ghgf64G",
    "T": "yjuyjtyfrZ6",
    "Tname": "WE ARE THE WORLD",
    "ST": null,
    "TID": "BPV 1431: 1",
    "src": "test",
    "OT": "test2",
    "OA": "test3",
    "OP": "test34
  },
  "Test": false
}

解析混乱的JSON字符串

0 个答案: