我希望使用AWS胶水从AWS Athena查询嵌套的XML文件。
libraryDependencies
像这样,我有大约1万条记录。我认为我们必须对ETL工作进行一些修改。让我知道其他信息。
答案 0 :(得分:1)
Athena无法直接处理XML文件。因此,我们需要Athena支持的任何格式(CSV / JSON / etc ..)。
1)在Glue中抓取XML文件(赋予适当的rowTag值)
2)编写胶水作业以将XML转换为CSV / JSON
3)抓取转换后的CSV / JSON
答案 1 :(得分:0)
当前,Amazon Athena不支持XML文件格式。您可以在此处找到受支持的格式列表:https://docs.aws.amazon.com/athena/latest/ug/supported-format.html
由于AWS Glue支持将XML作为ETL输入格式(https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html),因此您可以首先将数据从XML转换为JSON,然后使用Athena查询JSON数据。