Question

我的scrapy爬行器一直没有像预期的那样工作。

我从网上商店中删除了一些类别，其中包含每个类别页面中的分页，但有时它不包含链接分页，因为只有一个页面

我的规则只有在链接分页在我选择的页面内部时才有效，但我不知道如果该类别的根页是唯一的页面，它将如何使其起作用。

这是我的规则。

rules = [
    Rule(LinkExtractor(allow=(),restrict_xpaths=('//a[@class="button button_gris button_medium"]',)), callback='parse_item', follow=True)

任何想法如何让它刮掉不包含我所定位的分页链接的页面。

注意：

我使用mysqlDB填充的启动URL启动爬网蜘蛛，例如，arg表用于选择使用start url的链接表。

scrapy crawl mg_bot_crawler -a table=mini_four

感谢您的帮助

Answer 1

只需将您的回调更改为parse_start_url并覆盖它，请参阅此回答Scrapy CrawlSpider doesn't crawl the first landing page