我正在尝试使用AWS Glue作业脚本访问专用子网中的数据库。就文档中所见,可以使用不同的“连接类型”和适当的“连接选项”创建数据源,但是它们不支持VPC设置。
唯一支持VPC设置的是AWS Glue Connection,但是我找不到找到使用AWS Glue Connection创建Spark数据源的方法。
或者也许有一些解决方法?
答案 0 :(得分:2)
请参阅此guide中的步骤8,添加Glue jdbc连接后,创建搜寻器以将表元数据从源数据库导入到AWS Glue数据目录中。
然后,您可以像这样在Glue作业中访问表:
df = glueContext.create_dynamic_frame.from_catalog(database = "db1", table_name = "table1")
或使用Spark:
df = spark.sql("SELECT * FROM db1.table1")