应用错误收集

跟踪访问过的网址 - 它的抓取工具

时间：2013-09-27 19:14:30

标签： clojure web-crawler

我正在Clojure中创建一个应用程序，我正在使用它的爬虫来抓取特定网站。

现在我想知道是否可以运行它的爬虫一段时间，然后停止整个应用程序，但是当我再次启动应用程序以跳过已访问过的URL时？

1 个答案:

答案 0 :(得分：1)

从查看源代码，itsy不提供用于保存爬网程序当前状态的内置机制。但是，在:state键下crawl函数的结果中可以访问爬网程序的当前状态。

您可以在退出应用程序时序列化:seen-urls atom和:queued-urls队列中的值，然后在再次启动时对其进行反序列化。看起来您必须在运行crawl函数后添加已保存的值，以确保所有内容都已正确初始化。