应用错误收集

Scrapy Shell无法抓取网页

时间：2018-12-31 14:33:34

标签： python scrapy web-crawler

我正在尝试使用Scrapy shell尝试找出zone-h.org的选择器。之后，我运行scrapy shell 'webpage'，以尝试查看内容以确保已下载。但我只能看到破折号（-）。它不会下载页面。我试图进入该网站，以检查我与该网站的连接是否被阻止，但是可以访问。我尝试将用户代理设置为更通用的功能（例如chrome），但也没有运气。该网站以某种方式阻止了我，但我不知道该如何绕过它。我浏览了该网站是否阻止了爬网，但并没有说它禁止爬网。有人可以帮忙吗？

2 个答案:

答案 0 :(得分：1)

蜘蛛程序存在cookie问题，如果您随请求发送cookie，那么您将获得所需的数据。

您可以在所附图片中看到它。

答案 1 :(得分：0)

您可以在其他您知道有效/不阻止抓取的网页上使用scrapy shell "webpage"吗？

您是否尝试过使用view(response)命令打开在网络浏览器中看到的东西？

使用常规浏览器转到网页时，您是否重定向到另一个最终主页？ -如果是这样，请尝试在您的scrapy shell命令中使用最终首页的URL

您是否有防火墙可能会干扰Python /命令行应用程序连接到互联网？