Scrappy响应与浏览器响应不同

时间:2012-12-12 07:20:12

标签: beautifulsoup urllib2 scrapy

我试图用scrapy刮掉这个页面:

http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=7391

我得到的回复与我在浏览器中看到的回答不同。浏览器响应具有正确的页面,而scrapy响应是:

http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=1

页。我尝试过urllib2,但仍然有同样的问题。非常感谢任何帮助。

1 个答案:

答案 0 :(得分:3)

我真的不明白这个问题,但通常会对浏览器和scrapy做出不同的响应:

  • 服务器分析您的User-Agent标题,并为移动客户端或机器人返回特制页面;
  • 服务器分析cookie,并在您第一次访问时做一些特别的事情;
  • 你试图通过scrapy像浏览器那样发出POST请求,但是你忘记了一些表单字段,或者输错了值

没有通用的方法来确定什么是错的,因为它取决于您不知道的服务器逻辑。如果你很幸运,你将分析并解决所有提到的问题,并使其发挥作用。