AWS Glue作业中的Internet访问

时间:2018-06-29 11:57:08

标签: python amazon-web-services aws-glue

胶水工作可以上网吗?

使用此测试作业:

def have_internet():
    conn = httplib.HTTPConnection("www.google.com", timeout=5)
    try:
        conn.request("HEAD", "/")
        conn.close()
        logger.warn('ok')
    except:
        conn.close()
        logger.warn('no ok')

have_internet()

看来他们没有...

此外,在正确配置的Glue dev端点内,没有Internet访问。

通过正确配置,我的意思是在公共子网(互联网网关)内,具有S3终结点和Internet网关以及有效的“连接”和安全组。

但仍然无法访问互联网...

我希望Internet访问能够查询本地数据库,保存到S3,并运行另一个作业进行转换,然后加载到rds ...

我可以用胶水提取吗?

1 个答案:

答案 0 :(得分:0)

我怀疑由于Glue或相关基础结构的更新,这个问题现在已经解决。

连接问题是在PySpark REPL内部发生的,而不是在实际的Dev Endpoint实例本身上发生的。

无论如何,对于使用Glue解决类似网络连接问题的其他人,这里列出了可能的原因:

Dev端点必须位于“公共”子网中* DHCP选项需要具有默认设置 安全组,安全组,安全组 子网应与S3端点关联 ...