Question

我尝试使用crawler4j来实现抓取工具。它运行良好，直到：

如果我重新启动抓取工具，则收集的网址不是唯一的。这是因为，爬虫锁定根文件夹（存储中间爬虫数据并作为参数传递）。 当抓取工具重新启动时，它会删除根数据文件夹的内容。

是否有可能：？

Answer 1

您可以尝试使用以下方法更改抓取工具的配置：

crawlConfig.setResumableCrawling(true);

在controller.java课程中。

您可以关注this link并查看Resumable crawling。