我一直在尝试解析我拥有的嵌套JSON数据并隔离数组中的对象,并将其填充为单独的列,以便我可以将转换后的文件以表格格式移动到redshift和查询。 但是,无论尝试什么,我都无法成功。我使用AWS Glue使用自定义JSON分类器($ [*])对具有JSON文件的s3进行爬网,然后创建了一个ETL作业来转换已爬网的数据并移至redshift。使用“ relationalize”将PySpark中的嵌套JSON展平,但没有成功。我在解析文件后添加了JSON模式和预期结果,如下所示。 JSON模式,
root
|-- id: long (nullable = true)
|-- eventsData: struct (nullable = true)
| |-- events: array (nullable = true)
| | |-- element: struct (containsNull = true)
| | | |-- count: long (nullable = true)
| | | |-- eventType: string (nullable = true)
以及解析后的预期列:
id: long (nullable = true)
startEvent: string (nullable = true)
startEventCount: long (nullable = true)
processEvent: string (nullable = true)
processEventCount: long (nullable = true)
endEvent: string (nullable = true)
endEventCount: long (nullable = true)
。任何帮助都会得到真正的帮助。