在多台计算机上运行crawler4j |不同的实例|根文件夹锁

时间:2014-05-11 08:57:24

标签: java crawler4j

我尝试使用crawler4j来实现抓取工具。它运行良好,直到:

  1. 我只运行一份。
  2. 我不加重地连续运行。
  3. 如果我重新启动抓取工具,则收集的网址不是唯一的。这是因为,爬虫锁定根文件夹(存储中间爬虫数据并作为参数传递)。 当抓取工具重新启动时,它会删除根数据文件夹的内容。

    是否有可能:?

    1. 防止根数据文件夹锁定。 (所以,我可以一次运行多个爬虫副本。)
    2. 重启后,根数据文件夹的内容不会删除。 (这样我就可以在停止后恢复爬行。)

1 个答案:

答案 0 :(得分:0)

您可以尝试使用以下方法更改抓取工具的配置:

crawlConfig.setResumableCrawling(true); 

controller.java课程中。

您可以关注this link并查看Resumable crawling。