crawler4j重新抓取一个不起作用的网站

时间:2013-10-14 08:23:21

标签: java crawler4j

我正在使用crawler4j库来抓取一些网站,但是当我调用两次这个过程时我遇到了问题。它只适用于第一次。第二次没有给出任何错误,但它没有做任何事情。

我认为图书馆正在保存抓取的网址,这就是我无法打电话的原因。

我在这里看到了一些信息但不是解决方案...

http://code.google.com/p/crawler4j/wiki/FrequentlyAskedQuestions

提前致谢,

冬眠。

1 个答案:

答案 0 :(得分:1)

您的抓取存储文件夹是第一次写入之后,此外,此文件无法自动删除(重新抓取),因为对文件的访问被拒绝,因此在第二次,程序检查了此文件并认为所有网址都已抓取。您应该编辑crawler4j以完全关闭对抓取存储文件夹的访问。按照这个: https://code.google.com/p/crawler4j/issues/detail?id=157