Scrapy - 按顺序从页面中提取链接?

时间:2017-06-16 00:44:47

标签: python scrapy web-crawler scrapy-spider

所以我想抓一些文章列表,即cnn.com。我目前正在使用scrapy的CrawlSpider这样做。但是,我需要将它们整理好。此时,爬虫将抓取列表中的第一篇文章,但之后跳到第31,第16,第24,第9等。

有没有办法按顺序在页面上制作蜘蛛抓取链接(即从最近的文章出现在列表的顶部,从上到下)?我查了一下并发现this,但与该帖子不同,我不想按特定顺序抓取start_urls,我想抓取 a <的链接/ em> start_url按顺序排列。这可能与scrapy有关吗?我玩了几个像DEPTH_PRIORITY这样的东西,但我不确定这是我在找什么。

任何帮助将不胜感激,谢谢!

0 个答案:

没有答案