什么是在newzealand.com上抓取一些数据的xpath

时间:2015-08-19 03:17:51

标签: python web-scraping scrapy

想知道是否有人可以告诉我如何选择http://www.newzealand.com/int/new-zealand/上的xpath?例如:

//*[@id="tabsetitem-2327405-1388181"]/div[2]/div/h5/a

我无法使用上面的选择器获取response.xpath中的数据,有人可以帮帮忙吗?

非常感谢,非常感谢!

1 个答案:

答案 0 :(得分:1)

接近网页抓取这个特定的页面并不容易。该网站非常动态,页面加载和构建涉及XHR请求和浏览器执行的JavaScript。 Scrapy不是浏览器,里面没有javascript引擎,你只获得初始HTML页面,其中不包含搜索结果

$ scrapy shell http://www.newzealand.com/int/new-zealand/
In [1]: response.xpath('//*[starts-with(@id, "tabset-results")]').extract()[0]
Out[1]: u'<div class="tabset__results" id="tabset-results-2327405">\r\n</div>'

请注意,您可能希望使用the API, provided by newzealand.com