当根页

时间:2016-02-29 17:53:20

标签: python scrapy scrapy-spider

我的scrapy爬行器一直没有像预期的那样工作。

我从网上商店中删除了一些类别,其中包含每个类别页面中的分页,但有时它不包含链接分页,因为只有一个页面

我的规则只有在链接分页在我选择的页面内部时才有效,但我不知道如果该类别的根页是唯一的页面,它将如何使其起作用。

这是我的规则。

rules = [
    Rule(LinkExtractor(allow=(),restrict_xpaths=('//a[@class="button button_gris button_medium"]',)), callback='parse_item', follow=True)

任何想法如何让它刮掉不包含我所定位的分页链接的页面。

注意:

我使用mysqlDB填充的启动URL启动爬网蜘蛛,例如,arg表用于选择使用start url的链接表。

scrapy crawl mg_bot_crawler -a table=mini_four 

感谢您的帮助

1 个答案:

答案 0 :(得分:1)

只需将您的回调更改为parse_start_url并覆盖它,请参阅此回答Scrapy CrawlSpider doesn't crawl the first landing page