Question

我有一个小项目，我正在尝试抓取几百万页使用crawler4j 4.1（我没有明确的数字估计）。我正在使用BasicCrawler示例只对它做了一些小的改动。在我开始抓取Crawler4J日志后不久，显示以下错误不断出现

[Crawler 1] ERROR edu.uci.ics.crawler4j.crawler.WebCrawler - null, while processing: http://www.somelink.com.

我已经尝试将礼让政策时间提高到1000毫秒，甚至尝试使用单个线程运行爬虫，但同样的事情仍在继续发生。

另外，从长远来看，crawler4J似乎随机挂起，我必须停止它并在每次冻结时重新启动它。

任何可能导致这种情况的想法？并且Crawler4J是否将无法访问的链接重新安排回边界？

谢谢

Answer 1

虽然我不确定导致此错误的原因，但我试图跟踪所有已抓取的链接以及仍处于边界的链接。我可以确认两件事。