应用错误收集

Scrapy：RSS控制pub_date

时间：2011-02-18 10:50:59

标签： python web-crawler scrapy

我在做一个RSS蜘蛛。你如何控制最后一次抓取日期？

现在我在想什么呢：

将我已抓取的最后一个pub_date放入控制文件中。
然后当抓取开始时，它会检查最后一个pub_date 新的pub_dates。如果有新项目，则开始抓取，如果没有，则执行什么都没有。

其他人如何解决这个问题？

2 个答案:

答案 0 :(得分：1)

我将所有数据存储在数据库中（包括上次抓取日期和发布日期），并从数据库中获取所需的所有日期。

答案 1 :(得分：0)

我也将所有数据存储在数据库中，并从数据中计算出哈希值。这样，您可以非常快速地查找哈希值，并在运行中执行重复数据删除操作。