在scrapy中处理XMLHttpRequest

时间:2016-01-05 15:36:45

标签: python web-scraping scrapy

我在抓这张页面的表格:

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

有一个包含多个页面的表,通过XMLHttpRequest进行更改,检查我可以获取此请求的页面

http://www.trulia.com/q_schools_in_district.php?did=600116051&grade=elementary&page=2&sortby=testRating&sortdir=desc

但我不能用scrapy刮掉这个网址

当我尝试:

scrapy shell http://www.trulia.com/q_schools_in_district.php?did=600116051&grade=elementary&page=2&sortby=testRating&sortdir=desc

我没有得到回应,这些数据如何被删除?

1 个答案:

答案 0 :(得分:1)

[最初由eLRuLL在评论中发布]

使用""覆盖您的网址,因为第二个网址包含&,shell也会识别该网址以运行其他进程。