是否可以使用AWS Glue Connection创建数据源?

时间:2019-06-26 16:07:31

标签: amazon-web-services pyspark aws-glue

我正在尝试使用AWS Glue作业脚本访问专用子网中的数据库。就文档中所见,可以使用不同的“连接类型”和适当的“连接选项”创建数据源,但是它们不支持VPC设置。

唯一支持VPC设置的是AWS Glue Connection,但是我找不到找到使用AWS Glue Connection创建Spark数据源的方法。

或者也许有一些解决方法?

1 个答案:

答案 0 :(得分:2)

请参阅此guide中的步骤8,添加Glue jdbc连接后,创建搜寻器以将表元数据从源数据库导入到AWS Glue数据目录中。

然后,您可以像这样在Glue作业中访问表:

df = glueContext.create_dynamic_frame.from_catalog(database = "db1", table_name = "table1")

或使用Spark:

df = spark.sql("SELECT * FROM db1.table1")