我正在尝试学习Scrapy for Python(3),编写了一个应该从瑞典电子商务网站Blocket.se获取数据的爬虫。
页面底部的“下一页”按钮是许多没有唯一类或ID的按钮之一。按钮之间的唯一区别是实际元素文本,标签看起来相同。
“下一页”-按钮html
<a class="page_nav" itemprop="name" href="?q=macbook+air&cg=0&w=1&st=s&c=&ca=11&l=0&md=th&o=2&last=1">
Nästa sida »
</a>
“第一页”按钮html
<a class="page_nav" itemprop="name" href="?q=macbook+air&cg=0&w=1&st=s&c=&ca=11&l=0&md=th">
1
</a>
是否有一种方法可以专门针对Scrapy代码中的分页部分的“下一页”按钮?也许是通过元素中的实际文本?
答案 0 :(得分:0)
尝试response.xpath(u'//a[contains(text(), "Nästa sida")]/@href').get()