我实际上正在使用python中的scrapy进行爬虫,我几乎完成了,我只是有一点问题。 网站使用这样的分页:
<div class="pagination toolbarbloc">
<ul>
<li class="active"><span>1</span></li>
<li><a href="...">2</a></li>
<li><a href="...">3</a></li>
<li><a href="...">4</a></li>
<li><a href="...">5</a></li>
<li><a class="end" href="...">>></li>
</ul>
</div>
所以我试着抓住&#34; href&#34;在李与班级&#34;活跃的&#34;。
之后到了balise li我尝试这样的事情:
next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/following-sibling::li[@class="active"]/a/@href'
但它没有用:IndexError:列表索引超出范围
我刚开始使用xpath而且我知道它很简单,但在阅读了很多文档之后,我没有成功。
非常感谢那些帮助我的人!
答案 0 :(得分:0)
尝试以下表达式:
//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href
请注意,您错过了@
中的[class="pagination toolbarbloc"]
而li
不是ul