AWS Glue搜寻器-输入文件中的列顺序

时间:2020-03-30 06:52:24

标签: amazon-web-services aws-glue aws-glue-data-catalog

我在s3存储桶中创建了两个分区,并在每个文件夹中加载了一个csv文件。相应地,在这些文件之上运行Glue搜寻器,这些文件已注册为Glue目录中的一个表,我可以通过Athena进行查询。

  1. 分区1:在s3中加载csv文件,csv文件有5列
  2. 分区2:将sv文件加载到s3中,csv文件具有与上述相同的5列,但与(1)相比顺序不同

当我第一次在(1)上运行搜寻器时,它将创建Glue表/模式。稍后,当我将相同的数据以不同的顺序上传到(2)的不同分区并运行搜寻器时,它只是尝试将第二个文件映射到已作为(1)的一部分创建的架构,这会导致数据问题。 / p>

Glue中的列顺序重要吗?搜寻器是否不会根据名称自动识别列,而不是根据(2)与(1)相同的顺序进行期望。

1 个答案:

答案 0 :(得分:2)

顺序在csv文件中很重要。任何更改都会使其认为架构有所不同。但是,如果您使用实木复合地板文件,则可以使用