更改胶粘作业脚本后,为什么不更新目标数据?

时间:2019-07-30 06:43:05

标签: amazon-web-services aws-glue aws-glue-data-catalog

我已经定义了glue job来将数据从s3源存储桶转换到s3目标存储桶。我在作业中使用的脚本是Python。它工作正常,并将许多数据加载到目标存储桶。但是后来我通过更新python脚本以删除字段(edited)来更改了架构:

applymapping1 = applymapping1.drop_fields(['edited'])

重新运行作业后,遵循新方案的新数据到达s3源存储桶,但目标存储桶上的旧数据未更新。如何让glue作业针对目标存储桶中的现有数据运行?我是否必须删除存储桶并重新运行作业?

1 个答案:

答案 0 :(得分:0)

胶水不会覆盖目标数据。它总是附加新文件(some collisions may happen though)。因此,如果更改了输出模式,则需要删除旧的数据文件,然后重新运行作业以生成新的文件。

或者,您可以overwrite data using Spark's native 'write' function in your Glue job