胶水作业失败,出现连接超时错误

时间:2020-08-03 12:26:57

标签: amazon-web-services aws-glue aws-glue-data-catalog

我有一个Glue ETL作业,该作业从目录中读取数据并将其写入s3。完成此操作后,需要触发搜寻器以更新Athena中的数据。

因此,我正在使用gum_client.start_crawler(Name ='crawler_name')方法来启动搜寻器。但是,每当我尝试从ETL Glue作业启动搜寻器时,它都会失败,并显示以下错误

ConnectTimeoutError: Connect timeout on endpoint URL: "https://glue.eu-central-1.amazonaws.com/"

1 个答案:

答案 0 :(得分:1)

通过连接建立VPC内部的Glue作业时,流量将仅驻留在AWS network中,而不会通过公共互联网。

这是您无法连接到Glue boto3启动搜寻器API调用的原因。为此,您需要创建Glue VPC端点/将其添加到VPC,并且启动搜寻器的请求必须如下所示,其中包括endpoint_url。

import boto3
glue = boto3.client(service_name='glue', region_name='eu-central-1',
              endpoint_url='https://glue.eu-central-1.amazonaws.com')
glue.start_crawler(Name='crawler_name')