有些网站阻止了selenium webdriver,这是如何工作的?

时间:2016-11-22 19:25:07

标签: python selenium firefox server phantomjs

因此,我正在尝试网络抓取服装网站,以建立一个值得关注的优惠/产品列表,但我注意到我尝试加载的一些网站没有。网站如何能够阻止selenium webdriver http请求?他们看看标题还是其他什么。您能否一步一步地告诉我selenium webdriver如何发送请求以及服务器如何接收它们/能够阻止它们?

2 个答案:

答案 0 :(得分:3)

Selenium使用真实的网络浏览器(通常是Firefox或Chrome)发出请求,因此网站可能不知道您在幕后使用Selenium。

如果网站阻止了您,可能是因为您的使用模式(即您每分钟发出1000次请求会导致网络服务器堵塞。这很粗鲁.Don&#39这样做!)

一个例外是如果你在#34;无头"中使用Selenium使用HtmlUnitDriver的模式。网站可以检测到。

答案 1 :(得分:0)

由于您的AWS IP,很可能该网站 阻止了您。 这不仅告诉网站有人可能会以编程方式对其进行抓取,而且大多数网站接受的查询数量有限,它们可以从任意1个IP地址接受这些查询。 您很可能需要代理服务才能通过管道发送请求。