Question

我已经定义了glue job来将数据从s3源存储桶转换到s3目标存储桶。我在作业中使用的脚本是Python。它工作正常，并将许多数据加载到目标存储桶。但是后来我通过更新python脚本以删除字段（edited）来更改了架构：

applymapping1 = applymapping1.drop_fields(['edited'])

重新运行作业后，遵循新方案的新数据到达s3源存储桶，但目标存储桶上的旧数据未更新。如何让glue作业针对目标存储桶中的现有数据运行？我是否必须删除存储桶并重新运行作业？

Answer 1

胶水不会覆盖目标数据。它总是附加新文件（some collisions may happen though）。因此，如果更改了输出模式，则需要删除旧的数据文件，然后重新运行作业以生成新的文件。