我刚刚了解了Anemone的蜘蛛框架。它的网站说
注意:在开始新的抓取之前,每个存储引擎都会清除现有的Anemone数据。
问题我想知道我是否可以避免这种情况,即保留已抓取的内容,并在新抓取过程中刷新/更新副本?
理由:
我想将Anemone用作远程网页的本地存储。然后,我现有的页面解析器可以从中访问Nokogiri dom文档对象。许多页面解析器需要访问相同的URL地址,因此这应避免重复读取同一页面。
另外,Anemone可能足够聪明,可以使用http expire header来确定页面是否已更新,因此需要重新下载(因为它有以前的dom文档)。