Scrapy:RSS控制pub_date

时间:2011-02-18 10:50:59

标签: python web-crawler scrapy

我在做一个RSS蜘蛛。你如何控制最后一次抓取 日期?

现在我在想什么呢:

  • 将我已抓取的最后一个pub_date放入控制文件中。
  • 然后当抓取开始时,它会检查最后一个pub_date 新的pub_dates。如果有新项目,则开始抓取,如果没有,则执行 什么都没有。

其他人如何解决这个问题?

2 个答案:

答案 0 :(得分:1)

我将所有数据存储在数据库中(包括上次抓取日期和发布日期),并从数据库中获取所需的所有日期。

答案 1 :(得分:0)

我也将所有数据存储在数据库中,并从数据中计算出哈希值。这样,您可以非常快速地查找哈希值,并在运行中执行重复数据删除操作。