我的scrapy爬行器一直没有像预期的那样工作。
我从网上商店中删除了一些类别,其中包含每个类别页面中的分页,但有时它不包含链接分页,因为只有一个页面
我的规则只有在链接分页在我选择的页面内部时才有效,但我不知道如果该类别的根页是唯一的页面,它将如何使其起作用。
这是我的规则。
rules = [
Rule(LinkExtractor(allow=(),restrict_xpaths=('//a[@class="button button_gris button_medium"]',)), callback='parse_item', follow=True)
任何想法如何让它刮掉不包含我所定位的分页链接的页面。
注意:
我使用mysqlDB填充的启动URL启动爬网蜘蛛,例如,arg表用于选择使用start url的链接表。
scrapy crawl mg_bot_crawler -a table=mini_four
感谢您的帮助
答案 0 :(得分:1)
只需将您的回调更改为parse_start_url并覆盖它,请参阅此回答Scrapy CrawlSpider doesn't crawl the first landing page