java - Apache Nutch 2.3.1获取错误 - Thinbug

Apache Nutch 2.3.1获取错误

时间：2017-07-07 22:20:17

标签： java apache hbase nutch

我正在尝试抓取整个网站并预计会有大量的网址。因此，我将我的apache nutch crawl中的轮数设置为5，然后运行爬网。抓取现在处于第3轮，仍然可以正常获取网址，但在日志文件中我看到了：

获取已获取的网址名称（队列抓取延迟= 5000毫秒）50/50 spinwaiting / active，949页，2错误，0.2 0页/秒，26 17 kb / s， 1个队列中的2500个URL

如何找出这两个错误是什么？我在数百个提取的网址下面看到了这个错误。我使用的是apache nutch 2.3.1和hbase 0.94。谢谢！

1 个答案:

答案 0 :(得分：0)

检查日志文件中是否存在错误，由于Internet连接速度慢或超时（最大）问题，会出现一些错误。检查日志以获取详细信息