Scrapy Shell无法抓取网页

时间:2018-12-31 14:33:34

标签: python scrapy web-crawler

我正在尝试使用Scrapy shell尝试找出zone-h.org的选择器。之后,我运行scrapy shell 'webpage',以尝试查看内容以确保已下载。但我只能看到破折号(-)。它不会下载页面。我试图进入该网站,以检查我与该网站的连接是否被阻止,但是可以访问。我尝试将用户代理设置为更通用的功能(例如chrome),但也没有运气。该网站以某种方式阻止了我,但我不知道该如何绕过它。我浏览了该网站是否阻止了爬网,但并没有说它禁止爬网。有人可以帮忙吗?

2 个答案:

答案 0 :(得分:1)

蜘蛛程序存在cookie问题,如果您随请求发送cookie,那么您将获得所需的数据。

您可以在所附图片中看到它。 request with cookie

答案 1 :(得分:0)

您可以在其他您知道有效/不阻止抓取的网页上使用scrapy shell "webpage"吗?

您是否尝试过使用view(response)命令打开在网络浏览器中看到的东西?

使用常规浏览器转到网页时,您是否重定向到另一个最终主页? -如果是这样,请尝试在您的scrapy shell命令中使用最终首页的URL

您是否有防火墙可能会干扰Python /命令行应用程序连接到互联网?