我修改了一个Glue生成的脚本,用于转换和操作数据。我希望通过触发器在目录中出现的每个新表上运行相同的作业,但不需要手动更改作业脚本中的表名。 简而言之,如何在数据目录中显示的每个新表上运行脚本提供的相同转换,而无需每次都手动更改表名?
由于
答案 0 :(得分:0)
您可以使用Catalog Client动态获取数据库中的表列表。我不知道如何在pyspark中获取目录客户端,但在scala中它看起来像这样
val catalog = glueContext.getCatalogClient
for (table <- catalog.listTables("myDatabaseName", "").getTableList.asScala) {
// do your transformation
}