我在pyspark数据框列中有一系列深层嵌套的json字符串。我需要根据这些字符串的内容进行分解和过滤,并希望将它们添加为列。我尝试定义StructType,但是每次它继续返回空DF时。
尝试使用json_tuples进行解析,但是没有公共键可以重新加入数据帧,并且行号不匹配?我认为可能与某些空字段有关
子字段可以为空
示例JSON
{
"TIME": "datatime",
"SID": "yjhrtr",
"ID": {
"Source": "Person",
"AuthIFO": {
"Prov": "Abc",
"IOI": "123",
"DETAILS": {
"Id": "12345",
"SId": "ABCDE"
}
}
},
"Content": {
"User1": "AB878A",
"UserInfo": "False",
"D": "ghgf64G",
"T": "yjuyjtyfrZ6",
"Tname": "WE ARE THE WORLD",
"ST": null,
"TID": "BPV 1431: 1",
"src": "test",
"OT": "test2",
"OA": "test3",
"OP": "test34
},
"Test": false
}