在重新抓取时,Anemone可以保留以前存储的页面

时间:2012-11-23 04:08:30

标签: ruby web-crawler anemone

我刚刚了解了Anemone的蜘蛛框架。它的网站说

  

注意:在开始新的抓取之前,每个存储引擎都会清除现有的Anemone数据。

问题我想知道我是否可以避免这种情况,即保留已抓取的内容,并在新抓取过程中刷新/更新副本?

理由:

我想将Anemone用作远程网页的本地存储。然后,我现有的页面解析器可以从中访问Nokogiri dom文档对象。许多页面解析器需要访问相同的URL地址,因此这应避免重复读取同一页面。

另外,Anemone可能足够聪明,可以使用http expire header来确定页面是否已更新,因此需要重新下载(因为它有以前的dom文档)。

0 个答案:

没有答案