我正在尝试使用xpath从论坛中抓取reddit帖子。 我希望蜘蛛实现的功能之一是在完成从当前页面的报废后立即自动转到下一页。 页面html代码如下所示:
<span class="next-button"><a href="https://www.reddit.com/r/InteriorDesign/?count=975&after=t3_8ol7yp" rel="nofollow next" >next ›</a></span>
我使用xpath选择器: response.xpath(“// a [@class ='next-button']”) 但它没有给我任何回报。有人可以帮我找出原因吗?
谢谢! 郝
答案 0 :(得分:1)
@class
属性位于span
元素上,而不是a
链接元素。所以将XPath更改为
response.xpath("//span[@class = 'next-button']/a")
选择a
或
response.xpath("//span[@class = 'next-button']/a/@href")
获取链接地址。