我尝试使用crawler4j来实现抓取工具。它运行良好,直到:
如果我重新启动抓取工具,则收集的网址不是唯一的。这是因为,爬虫锁定根文件夹(存储中间爬虫数据并作为参数传递)。 当抓取工具重新启动时,它会删除根数据文件夹的内容。
是否有可能:?
答案 0 :(得分:0)
您可以尝试使用以下方法更改抓取工具的配置:
crawlConfig.setResumableCrawling(true);
在controller.java
课程中。
您可以关注this link并查看Resumable crawling。