标签: python web-crawler scrapy
我在做一个RSS蜘蛛。你如何控制最后一次抓取 日期?
现在我在想什么呢:
其他人如何解决这个问题?
答案 0 :(得分:1)
我将所有数据存储在数据库中(包括上次抓取日期和发布日期),并从数据库中获取所需的所有日期。
答案 1 :(得分:0)
我也将所有数据存储在数据库中,并从数据中计算出哈希值。这样,您可以非常快速地查找哈希值,并在运行中执行重复数据删除操作。