跟踪访问过的网址 - 它的抓取工具

时间:2013-09-27 19:14:30

标签: clojure web-crawler

我正在Clojure中创建一个应用程序,我正在使用它的爬虫来抓取特定网站。

现在我想知道是否可以运行它的爬虫一段时间,然后停止整个应用程序,但是当我再次启动应用程序以跳过已访问过的URL时?

1 个答案:

答案 0 :(得分:1)

从查看源代码,itsy不提供用于保存爬网程序当前状态的内置机制。但是,在:state键下crawl函数的结果中可以访问爬网程序的当前状态。

您可以在退出应用程序时序列化:seen-urls atom和:queued-urls队列中的值,然后在再次启动时对其进行反序列化。看起来您必须在运行crawl函数后添加已保存的值,以确保所有内容都已正确初始化。