Question

我制作了一个Scrapy爬虫，它从论坛帖子中收集一些数据。在列表页面上，我可以看到上次修改日期。基于该日期，我想决定是否再次抓取该线程。我使用管道将数据存储在mysql中。在使用我的CrawlSpider处理列表页面时，我想检查mysql中的记录，并根据该记录我想要产生一个请求。（除非有新帖，否则我不想加载网址。）

最好的办法是什么？

Answer 1

使用CrawSpider Rule：

Rule(SgmlLinkExtractor(), follow=True, process_request='check_moddate'),

然后在你的蜘蛛中：

def check_moddate(self, request):
    def dateisnew():
        # check the date
    if dateisnew():
        return request

Scrapy：基于mysql选择URL的最佳方法

1 个答案: