Scrapy获得的HTML与浏览器显示为源HTML的HTML完全不同

时间:2018-08-28 20:08:55

标签: python html web-scraping scrapy python-requests

我已经进行了几个月的网页抓取工作,并且正在尝试升级。最近,我开始研究scrapy。我遇到了一个让我感到困惑的网站:Documentation。我一直无法将页面加载到浏览器中,既没有草率也没有请求。

我尝试了一些不同的代码段,但实际上我在终端中使用以下命令:

scrapy shell https://www.comperdelivery.com.br/bebidas-3/c
>>> response.body

response.body与我在Firefox或Chrome中看到的完全不同,甚至没有相同的body标签。我尝试像这样https://www.comperdelivery.com.br/bebidas-3/c指定一个像这样的适当用户代理无济于事:

scrapy shell https://www.comperdelivery.com.br/bebidas-3/c -s USER_AGENT="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.130 Safari/537.36"

我了解站点服务器中可能正在发生某些我不了解的事情。谁能启发我?

0 个答案:

没有答案