我制作了一个Scrapy爬虫,它从论坛帖子中收集一些数据。在列表页面上,我可以看到上次修改日期。 基于该日期,我想决定是否再次抓取该线程。我使用管道将数据存储在mysql中。在使用我的CrawlSpider处理列表页面时,我想检查mysql中的记录,并根据该记录我想要产生一个请求。 (除非有新帖,否则我不想加载网址。)
最好的办法是什么?
答案 0 :(得分:0)
使用CrawSpider
Rule
:
Rule(SgmlLinkExtractor(), follow=True, process_request='check_moddate'),
然后在你的蜘蛛中:
def check_moddate(self, request):
def dateisnew():
# check the date
if dateisnew():
return request