我在s3存储桶中创建了两个分区,并在每个文件夹中加载了一个csv文件。相应地,在这些文件之上运行Glue搜寻器,这些文件已注册为Glue目录中的一个表,我可以通过Athena进行查询。
当我第一次在(1)上运行搜寻器时,它将创建Glue表/模式。稍后,当我将相同的数据以不同的顺序上传到(2)的不同分区并运行搜寻器时,它只是尝试将第二个文件映射到已作为(1)的一部分创建的架构,这会导致数据问题。 / p>
Glue中的列顺序重要吗?搜寻器是否不会根据名称自动识别列,而不是根据(2)与(1)相同的顺序进行期望。
答案 0 :(得分:2)
顺序在csv文件中很重要。任何更改都会使其认为架构有所不同。但是,如果您使用实木复合地板文件,则可以使用