我创建了一个ec2实例用于Web抓取。但是,我无法使用硒来刮擦任何站点,因为出现以下错误:
“ selenium.common.exceptions.TimeoutException:消息:连接被拒绝”错误。
我认为这与阻止网站的安全组设置有关。因此,我根据this创建了一个新的安全组。但是,这样做之后,我再也无法进入ec2实例了。
我要对EC2实例进行爬网需要什么配置?
答案 0 :(得分:0)
答案 1 :(得分:0)
我将假定您在Amazon EC2实例上使用Selenium。
您的入站安全组设置与Selenium无关,但是大概您将要登录到该实例。因此,您的入站安全组应允许端口22(对于Linux)或端口3389(对于Windows RDP)。
要允许实例上的Selenium应用访问Internet,可以为 Outbound 安全组使用默认的“全部允许”设置:所有流量,所有端口,目标= {{1 }}
您尝试抓取的网站可能阻塞了Amazon EC2实例的IP地址范围。 (始终根据网站的使用条件进行操作!)您可以通过连接到Amazon EC2实例,然后尝试检索某些网站来进行测试,例如:
0.0.0.0/0
应返回HTML页面的内容。
然后,在您要抓取的网站之一上进行尝试,以验证实例可以访问该网站。