刮掉自上次刮伤后添加的内容

时间:2012-07-03 15:10:59

标签: django scrapy

我需要抓取一个网站,它基本上有这样的链接:

www.website.com/link/page_1.html
www.website.com/link/page_2.html
www.website.com/link/page_3.html
...

抓取的内容将通过管道直接进入数据库。

很容易告诉django:

if item exists do not insert it, otherwise insert it

但有没有办法刮掉自上次刮掉以来添加的其余链接?

例如,在website.com插入新项目之后:

/link/page_1.html becomes /link/page_2.html
new items populate /link/page_1.html

在这一点上,我需要告诉scrapy只是刮掉自上次刮伤后添加的新物品?

1 个答案:

答案 0 :(得分:1)

最新的scrapy支持将请求序列化到磁盘[1],还有Rolando的Redis集成[2]。