所以我想抓一些文章列表,即cnn.com。我目前正在使用scrapy的CrawlSpider这样做。但是,我需要将它们整理好。此时,爬虫将抓取列表中的第一篇文章,但之后跳到第31,第16,第24,第9等。
有没有办法按顺序在页面上制作蜘蛛抓取链接(即从最近的文章出现在列表的顶部,从上到下)?我查了一下并发现this,但与该帖子不同,我不想按特定顺序抓取start_urls
,我想抓取 a <的链接/ em> start_url
按顺序排列。这可能与scrapy有关吗?我玩了几个像DEPTH_PRIORITY这样的东西,但我不确定这是我在找什么。
任何帮助将不胜感激,谢谢!