AWS胶回滚策略

时间:2017-11-29 12:09:34

标签: amazon-web-services

我正在从oracle RDS到s3进行ETL。如果我正在运行我的ETL脚本并且它正在s3中转储一些数据并且在某些东西中间中断,我该如何回滚整个脚本?是否有任何回滚策略或配置aws胶水提供?

1 个答案:

答案 0 :(得分:0)

Amazon Glue目前不支持此功能。 这种功能必须由脚本和ETL过程管理。有几种方法可以实现这一目标。

  • 您可以构建一个增量过程,该过程使用时间戳字段或递增主键值将当前s3中的数据与通过ETL过程加载的新数据进行比较。这将为您提供可恢复性,以便您的流程可以在下次执行期间从中断处继续。
  • 如果要在单个ETL过程中将多个表移动到S3,则可以将它们分解为单个进程,并让Glue调度程序将作业链接在一起,以便在解决问题后从中断处开始。
  • 您可以构建您的作业,以便在每次执行期间将数据集完全重新加载到s3。如果存在异常,则在下次执行期间将完全替换您的数据。