可重复使用的AWS Glue作业

时间:2020-08-03 21:28:14

标签: python pyspark aws-glue

我有200多个表需要从RDBMS迁移到S3,而无需进行任何转换,因此我们计划使用Glue Job进行迁移。因此,我想创建可重复使用并使用参数值执行的AWS Glue作业,以便我一次可以运行多个表(多线程)。无论如何,在AWS Glue中都是可能的。

1 个答案:

答案 0 :(得分:1)

快速答案是肯定的

  1. 您可以重复使用可以继续执行的单个粘合作业,您可以在其中将源位置和目标数据库表名称作为作业参数传递给粘合作业
  2. 您的粘合作业支持可在粘合作业中设置的并发(这意味着您可以对同一作业进行多次调用)。这将比在您的工作中实现多线程更容易。但是只要我们仅使用默认或纯python模块,就可以实现多线程。您需要牢记某些帐户级别限制(可以增加)。
  3. 您可以在调用胶水作业时将参数传递给胶水作业,方法是使用所需的任何机制(例如:step functions / lambdas ...)