标签: clojure web-crawler
我正在Clojure中创建一个应用程序,我正在使用它的爬虫来抓取特定网站。
现在我想知道是否可以运行它的爬虫一段时间,然后停止整个应用程序,但是当我再次启动应用程序以跳过已访问过的URL时?
答案 0 :(得分:1)
从查看源代码,itsy不提供用于保存爬网程序当前状态的内置机制。但是,在:state键下crawl函数的结果中可以访问爬网程序的当前状态。
:state
crawl
您可以在退出应用程序时序列化:seen-urls atom和:queued-urls队列中的值,然后在再次启动时对其进行反序列化。看起来您必须在运行crawl函数后添加已保存的值,以确保所有内容都已正确初始化。
:seen-urls
:queued-urls