Question

想知道是否有人可以告诉我如何选择http://www.newzealand.com/int/new-zealand/上的xpath？例如：

//*[@id="tabsetitem-2327405-1388181"]/div[2]/div/h5/a

我无法使用上面的选择器获取response.xpath中的数据，有人可以帮帮忙吗？

非常感谢，非常感谢！

Answer 1

接近网页抓取这个特定的页面并不容易。该网站非常动态，页面加载和构建涉及XHR请求和浏览器执行的JavaScript。 Scrapy不是浏览器，里面没有javascript引擎，你只获得初始HTML页面，其中不包含搜索结果：

$ scrapy shell http://www.newzealand.com/int/new-zealand/
In [1]: response.xpath('//*[starts-with(@id, "tabset-results")]').extract()[0]
Out[1]: u'<div class="tabset__results" id="tabset-results-2327405">\r\n</div>'

请注意，您可能希望使用the API, provided by newzealand.com。

什么是在newzealand.com上抓取一些数据的xpath

1 个答案: