响应与start url不同

时间:2015-10-17 03:01:07

标签: python xpath web-scraping scrapy

我在scrapy shell中练习xpath。我工作的wepage是

http://bxt.harbin.gov.cn/more.php?nameid=1&frameid=1&colorid=1

我想在表格中搜索数据。但在我输入

之后
scrapy shell http://bxt.harbin.gov.cn/more.php?nameid=1&frameid=1&colorid=1

在Windows cmd中,我发现在“可用的Scrapy对象”下有

[s]   response   <200 http://bxt.harbin.gov.cn/more.php?nameid=0>

响应网址与我想要处理的网址不同。错误的网址没有我想要提取的数据。知道为什么会这样吗?谢谢!

1 个答案:

答案 0 :(得分:1)

所需的表格位于iframe内 - 转到加载iframe的网址:

$ scrapy shell http://bxt.harbin.gov.cn/hrb_bzbxt/list_hf.php
In [1]: for row in response.xpath("//table[3]//tr[position() > 1]"):
    print row.xpath(".//td[1]/text()").extract()[0]
   ...:  
551626
551617
551616
551614
551612
551611
...
551521

在上面的演示中,将打印每个表格行的第一个单元格的内容。