Question

我实际上正在使用python中的scrapy进行爬虫，我几乎完成了，我只是有一点问题。网站使用这样的分页：

<div class="pagination toolbarbloc">
            <ul>
                    <li class="active"><span>1</span></li>
                    <li><a href="...">2</a></li>
                    <li><a href="...">3</a></li>
                    <li><a href="...">4</a></li>
                    <li><a href="...">5</a></li>
                    <li><a class="end" href="...">>></li>
            </ul>
        </div>

所以我试着抓住＆＃34; href＆＃34;在李与班级＆＃34;活跃的＆＃34;。

之后到了balise li

我尝试这样的事情：

next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/following-sibling::li[@class="active"]/a/@href'

但它没有用：IndexError：列表索引超出范围

我刚开始使用xpath而且我知道它很简单，但在阅读了很多文档之后，我没有成功。

非常感谢那些帮助我的人！

Answer 1

尝试以下表达式：

//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href

请注意，您错过了@中的[class="pagination toolbarbloc"]而li不是ul

的兄弟姐妹

分页 - python中的爬虫的xpath

1 个答案: