AWS GLUE作业失败,使用嵌套的s3文件夹中的分区Parquet文件

时间:2019-01-17 12:48:29

标签: directory schema parquet glue

在分区的镶木地板文件上运行GLUE作业时出现以下错误 无法推断Parquet的架构。必须手动指定

我已经设置了搜寻器,并成功获取了镶木地板文件的架构。我可以在雅典娜中查看数据。我已经在目标Redshift上手动创建了架构。

如果我所有数据仅在一个文件夹中,我可以通过GLUE将文件加载到Redshift中。  但是当我指向具有嵌套文件夹的文件夹时,例如文件夹X-具有04和05-GLUE作业失败并显示以下消息 无法推断Parquet的架构。必须手动指定

如果我将所有这些文件都放在同一个文件夹中,那会起作用呢?

2 个答案:

答案 0 :(得分:0)

我在这里找到了解决方案-这对我有用 Firehose JSON -> S3 Parquet -> ETL Spark, error: Unable to infer schema for Parquet

这是ETL胶水作业的Scala版本

答案 1 :(得分:0)

如果直接指向分区文件夹,则分区文件夹将不再是表架构中的列。最好使用谓词下推-https://aws.amazon.com/blogs/big-data/work-with-partitioned-data-in-aws-glue/ 指向顶部文件夹。