应用错误收集

Scrapy - 按顺序从页面中提取链接？

时间：2017-06-16 00:44:47

标签： python scrapy web-crawler scrapy-spider

所以我想抓一些文章列表，即cnn.com。我目前正在使用scrapy的CrawlSpider这样做。但是，我需要将它们整理好。此时，爬虫将抓取列表中的第一篇文章，但之后跳到第31，第16，第24，第9等。

有没有办法按顺序在页面上制作蜘蛛抓取链接（即从最近的文章出现在列表的顶部，从上到下）？我查了一下并发现this，但与该帖子不同，我不想按特定顺序抓取start_urls，我想抓取 a <的链接/ em> start_url按顺序排列。这可能与scrapy有关吗？我玩了几个像DEPTH_PRIORITY这样的东西，但我不确定这是我在找什么。

任何帮助将不胜感激，谢谢！

0 个答案:

没有答案

相关问题

使用scrapy提取链接内的数据

使用scrapy从xml中提取链接

Scrapy：从源及其链接中提取数据

从分页嵌套链接中提取数据

Scrapy - 按顺序从页面中提取链接？

Scrapy-从下一页提取数据

从无限滚动页面获取链接

抓紧以下链接，提取新链接并关注它们

停留在从页面中提取标题和下一页URL

Scrapy-提取使用JS函数生成的页面链接

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？