Scrapy:基于mysql选择URL的最佳方法

时间:2013-03-12 13:43:42

标签: python mysql web-crawler scrapy

我制作了一个Scrapy爬虫,它从论坛帖子中收集一些数据。在列表页面上,我可以看到上次修改日期。 基于该日期,我想决定是否再次抓取该线程。我使用管道将数据存储在mysql中。在使用我的CrawlSpider处理列表页面时,我想检查mysql中的记录,并根据该记录我想要产生一个请求。 (除非有新帖,否则我不想加载网址。)

最好的办法是什么?

1 个答案:

答案 0 :(得分:0)

使用CrawSpider Rule

Rule(SgmlLinkExtractor(), follow=True, process_request='check_moddate'),

然后在你的蜘蛛中:

def check_moddate(self, request):
    def dateisnew():
        # check the date
    if dateisnew():
        return request