如何使用pyspark将嵌套的json数据提取到数据框中?

时间:2019-04-03 14:55:43

标签: json pyspark

我有一个嵌套的Json文件,我需要将数据解析到每一列中。我的数据架构为https://i.stack.imgur.com/35kIn.png

现在,如何使用单独的列(例如companynumb,drugadministrationroute,drugauthorizationnumb,drugbatchnumb,medicalinalproduct,application_number,brand_name,generic_name,manufacturer_name,reaction,receivingdate,receivedate,serious)提取JSON中的所有数据

我尝试使用WholeTextFiles,multiLine,expr,withColumn。但是我无法提取所有字段。

0 个答案:

没有答案