Question

我正在尝试使用AWS Glue作业脚本访问专用子网中的数据库。就文档中所见，可以使用不同的“连接类型”和适当的“连接选项”创建数据源，但是它们不支持VPC设置。

唯一支持VPC设置的是AWS Glue Connection，但是我找不到找到使用AWS Glue Connection创建Spark数据源的方法。

或者也许有一些解决方法？

Answer 1

请参阅此guide中的步骤8，添加Glue jdbc连接后，创建搜寻器以将表元数据从源数据库导入到AWS Glue数据目录中。

然后，您可以像这样在Glue作业中访问表：

df = glueContext.create_dynamic_frame.from_catalog(database = "db1", table_name = "table1")

或使用Spark：

df = spark.sql("SELECT * FROM db1.table1")