我已经定义了glue job
来将数据从s3源存储桶转换到s3目标存储桶。我在作业中使用的脚本是Python
。它工作正常,并将许多数据加载到目标存储桶。但是后来我通过更新python脚本以删除字段(edited
)来更改了架构:
applymapping1 = applymapping1.drop_fields(['edited'])
重新运行作业后,遵循新方案的新数据到达s3源存储桶,但目标存储桶上的旧数据未更新。如何让glue
作业针对目标存储桶中的现有数据运行?我是否必须删除存储桶并重新运行作业?
答案 0 :(得分:0)
胶水不会覆盖目标数据。它总是附加新文件(some collisions may happen though)。因此,如果更改了输出模式,则需要删除旧的数据文件,然后重新运行作业以生成新的文件。
或者,您可以overwrite data using Spark's native 'write' function in your Glue job。