我正在使用portia来抓取网站的文章,现在我想知道如何在运行portia spider时每天获得最少的文章?
我知道要使用文章中的日期时间,并与现在的datetime进行比较。但是有更好的吗?
答案 0 :(得分:2)
取决于网站的结构,但如果每篇文章都在不同的网址中,您可以使用deltafetch蜘蛛中间件过滤以前抓取中已访问过的网址。
启用安装scrapylib并将其添加到settings.py:
SPIDER_MIDDLEWARES = {
'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True