我正在使用crawler4j库来抓取一些网站,但是当我调用两次这个过程时我遇到了问题。它只适用于第一次。第二次没有给出任何错误,但它没有做任何事情。
我认为图书馆正在保存抓取的网址,这就是我无法打电话的原因。
我在这里看到了一些信息但不是解决方案...
http://code.google.com/p/crawler4j/wiki/FrequentlyAskedQuestions
提前致谢,
冬眠。
答案 0 :(得分:1)
您的抓取存储文件夹是第一次写入之后,此外,此文件无法自动删除(重新抓取),因为对文件的访问被拒绝,因此在第二次,程序检查了此文件并认为所有网址都已抓取。您应该编辑crawler4j以完全关闭对抓取存储文件夹的访问。按照这个: https://code.google.com/p/crawler4j/issues/detail?id=157