ec2实例无法连接到网站

时间:2019-12-26 17:01:49

标签: python-3.x amazon-web-services amazon-ec2

我创建了一个ec2实例用于Web抓取。但是,我无法使用硒来刮擦任何站点,因为出现以下错误:

  

“ selenium.common.exceptions.TimeoutException:消息:连接被拒绝”错误。

我认为这与阻止网站的安全组设置有关。因此,我根据this创建了一个新的安全组。但是,这样做之后,我再也无法进入ec2实例了。

我要对EC2实例进行爬网需要什么配置?

2 个答案:

答案 0 :(得分:0)

要访问SSH,您需要修改安全组,如下图所示:

SSH SG RULE

要访问HTTP(80端口)或HTTPS(443端口),您需要添加以下规则: HTTP or HTTPS Rules

检查是否启用了这两个规则。这些都是入站规则。

答案 1 :(得分:0)

我将假定您在Amazon EC2实例上使用Selenium。

您的入站安全组设置与Selenium无关,但是大概您将要登录到该实例。因此,您的入站安全组应允许端口22(对于Linux)或端口3389(对于Windows RDP)。

要允许实例上的Selenium应用访问Internet,可以为 Outbound 安全组使用默认的“全部允许”设置:所有流量,所有端口,目标= {{1 }}

您尝试抓取的网站可能阻塞了Amazon EC2实例的IP地址范围。 (始终根据网站的使用条件进行操作!)您可以通过连接到Amazon EC2实例,然后尝试检索某些网站来进行测试,例如:

0.0.0.0/0

应返回HTML页面的内容。

然后,在您要抓取的网站之一上进行尝试,以验证实例可以访问该网站。