我们有一个aws胶工作,它将数据从rds复制到s3。现在,无论何时运行此作业,它都会在我们的s3存储桶中创建一个新文件。我们如何确保在创建新文件之前覆盖存储桶中的旧文件/从存储桶中删除所有文件?(因此,存储桶中始终只有一个文件) ....
repartitioned1 = applymapping1.repartition(1)
datasink2 = glueContext.write_dynamic_frame.from_options(frame = repartitioned1, connection_type = "s3", connection_options = {"path": "s3://our-s3-bucket-name"}, format = "json", transformation_ctx = "datasink2")
答案 0 :(得分:0)
一种可能的方法是,在单独的粘合作业中,键入“ python shell”,在boto3.client('s3')中使用一些python代码来删除文件。然后创建一个简短的胶水工作流程,以运行“删除作业”,然后运行“火花”胶水作业。