Apache Nutch 2.3.1获取错误

时间:2017-07-07 22:20:17

标签: java apache hbase nutch

我正在尝试抓取整个网站并预计会有大量的网址。因此,我将我的apache nutch crawl中的轮数设置为5,然后运行爬网。抓取现在处于第3轮,仍然可以正常获取网址,但在日志文件中我看到了:

  

获取已获取的网址名称(队列抓取延迟= 5000毫秒)50/50   spinwaiting / active,949页,2错误,0.2 0页/秒,26 17 kb / s,   1个队列中的2500个URL

如何找出这两个错误是什么?我在数百个提取的网址下面看到了这个错误。我使用的是apache nutch 2.3.1和hbase 0.94。谢谢!

1 个答案:

答案 0 :(得分:0)

检查日志文件中是否存在错误,由于Internet连接速度慢或超时(最大)问题,会出现一些错误。检查日志以获取详细信息