如何通过Glue在AWS Athena中查询嵌套XML文件

时间:2019-03-21 16:00:45

标签: amazon-web-services pyspark etl amazon-athena aws-glue

我希望使用AWS胶水从AWS Athena查询嵌套的XML文件。

libraryDependencies

像这样,我有大约1万条记录。我认为我们必须对ETL工作进行一些修改。让我知道其他信息。

2 个答案:

答案 0 :(得分:1)

Athena无法直接处理XML文件。因此,我们需要Athena支持的任何格式(CSV / JSON / etc ..)。

1)在Glue中抓取XML文件(赋予适当的rowTag值)
2)编写胶水作业以将XML转换为CSV / JSON
3)抓取转换后的CSV / JSON

答案 1 :(得分:0)

当前,Amazon Athena不支持XML文件格式。您可以在此处找到受支持的格式列表:https://docs.aws.amazon.com/athena/latest/ug/supported-format.html

由于AWS Glue支持将XML作为ETL输入格式(https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html),因此您可以首先将数据从XML转换为JSON,然后使用Athena查询JSON数据。