Trulia桌子只能用scrapy报废吗?

时间:2016-01-05 06:38:40

标签: python web-scraping scrapy

我在寻找这种表格的内容:

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

我可以通过以下方式获取行:

rows = response.xpath('//*[@id="middle_tab_content"]/table/tr[]').extract()

问题是表中有几个页面保持相同的链接

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

行也保持相同的Xpath,表中没有变化

编辑。

@Salman:我看到了“网络”标签,但找不到XHR子标签

enter image description here

1 个答案:

答案 0 :(得分:1)

使用XMLHttpRequest提取下一页。如果您在浏览器中检查页面,您将找到该请求的URL。对于第二页,它看起来像这样:

http://www.trulia.com/q_schools_in_district.php?did=600116051&grade=elementary&page=2&sortby=testRating&sortdir=desc

您可以做的是刮一页,然后使用此网址请求下一页。您只需更换&page=<page>查询中的页码即可获取每个页面。