无法提取分页链接

时间:2018-10-02 21:42:40

标签: python pagination scrapy

我想标识“下一页链接”,以免抓取多页网站。 我有一种无法使用通用方法的感觉,因为href内容为空(href =“”)。看到这里:

<div class="publicusers-page-navigation page-navigation">
<a href="" class="current" data-page-index="1">1</a>
<a href="" data-page-index="2">2</a><a href="" data-page-index="3">3</a>
<i>...</i>
<a href="" data-page-index="330">330</a>
<a href="" class="pagination-next" data-page-index="2">►</a>
</div>

我尝试过     response.css('div.page-navigation > a::attr(href)').extract_first()

但是它不起作用。

如果有人已经在这个问题上苦苦挣扎了,我希望能有人帮助我。

1 个答案:

答案 0 :(得分:1)

您可以简单地生成网址,然后进行解析。

page = 0
for i in range(330):
    page+=1
    url = ('https://www.vdma.org/mitglieder'
        '?p_p_lifecycle=2&p_p_resource_id=getPage&p_p_id'
        '=vdma2publicusers_WAR_vdma2publicusers&s=&page='+str(page))
    print(url)