没有分页链接在Scrapy中刮擦

时间:2017-12-06 03:36:39

标签: pagination scrapy scrapy-spider

我试图通过一个没有超链接分页按钮的评论网站进行分页。分页按钮的代码片段:

<span data-page-number="2" data-offset="5" class="nav next taLnk " onclick="(ta.prwidgets.getjs(this,'handlers')).paginate(this); ta.trackEventOnPage('NORTH_STAR_PAGINATION', 'next', '2', 0);" data-page="LqWQeVsSVuWy3KkAoWMUKvKmmmmWxfWiEoWrGVQhIpMgQJIQxGCSsVEtSIgQfSIgWwGScJMVc2GSJQwVCCtgcsJCSJB"><div class="ui_button primary ">Next</div></span>

然而,URL中存在分页结构。例如foobar.com/page1

我想避免使用无头浏览器。由于我访问了很多这些页面,因此我无法手动检查每个页面的页面长度。

但是,我知道每页有10条评论,评论计数在第一页上说明,页数也是如此。有没有办法可以使用这个抓取的信息通过url逻辑从我的初始start-url中分页?谢谢!

(仅供参考使用不存在页数的网址重定向回到第1页)

0 个答案:

没有答案