分页 - python中的爬虫的xpath

时间:2017-09-11 05:03:51

标签: python xpath scrapy web-crawler

我实际上正在使用python中的scrapy进行爬虫,我几乎完成了,我只是有一点问题。 网站使用这样的分页:

<div class="pagination toolbarbloc">
            <ul>
                    <li class="active"><span>1</span></li>
                    <li><a href="...">2</a></li>
                    <li><a href="...">3</a></li>
                    <li><a href="...">4</a></li>
                    <li><a href="...">5</a></li>
                    <li><a class="end" href="...">>></li>
            </ul>
        </div>

所以我试着抓住&#34; href&#34;在李与班级&#34;活跃的&#34;。

之后到了balise li

我尝试这样的事情:

next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/following-sibling::li[@class="active"]/a/@href'

但它没有用:IndexError:列表索引超出范围

我刚开始使用xpath而且我知道它很简单,但在阅读了很多文档之后,我没有成功。

非常感谢那些帮助我的人!

1 个答案:

答案 0 :(得分:0)

尝试以下表达式:

//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href

请注意,您错过了@中的[class="pagination toolbarbloc"]li不是ul

的兄弟姐妹