aws胶水触发工作

时间:2018-05-11 06:11:24

标签: amazon-web-services triggers pyspark aws-glue

我修改了一个Glue生成的脚本,用于转换和操作数据。我希望通过触发器在目录中出现的每个新表上运行相同的作业,但不需要手动更改作业脚本中的表名。 简而言之,如何在数据目录中显示的每个新表上运行脚本提供的相同转换,而无需每次都手动更改表名?

由于

1 个答案:

答案 0 :(得分:0)

您可以使用Catalog Client动态获取数据库中的表列表。我不知道如何在pyspark中获取目录客户端,但在scala中它看起来像这样

val catalog = glueContext.getCatalogClient

for (table <- catalog.listTables("myDatabaseName", "").getTableList.asScala) {
    // do your transformation
}