Question

我正在尝试学习Scrapy for Python（3），编写了一个应该从瑞典电子商务网站Blocket.se获取数据的爬虫。

页面底部的“下一页”按钮是许多没有唯一类或ID的按钮之一。按钮之间的唯一区别是实际元素文本，标签看起来相同。

“下一页”-按钮html

<a class="page_nav" itemprop="name" href="?q=macbook+air&amp;cg=0&amp;w=1&amp;st=s&amp;c=&amp;ca=11&amp;l=0&amp;md=th&amp;o=2&amp;last=1">
            Nästa sida »
        </a>

“第一页”按钮html

<a class="page_nav" itemprop="name" href="?q=macbook+air&amp;cg=0&amp;w=1&amp;st=s&amp;c=&amp;ca=11&amp;l=0&amp;md=th">
                    1
                </a>

是否有一种方法可以专门针对Scrapy代码中的分页部分的“下一页”按钮？也许是通过元素中的实际文本？

Answer 1

尝试response.xpath(u'//a[contains(text(), "Nästa sida")]/@href').get()

如何通过文本，Scrapy来定位.css selecor

1 个答案: