我正在尝试抓取整个网站并预计会有大量的网址。因此,我将我的apache nutch crawl中的轮数设置为5,然后运行爬网。抓取现在处于第3轮,仍然可以正常获取网址,但在日志文件中我看到了:
获取已获取的网址名称(队列抓取延迟= 5000毫秒)50/50 spinwaiting / active,949页,2错误,0.2 0页/秒,26 17 kb / s, 1个队列中的2500个URL
如何找出这两个错误是什么?我在数百个提取的网址下面看到了这个错误。我使用的是apache nutch 2.3.1和hbase 0.94。谢谢!
答案 0 :(得分:0)
检查日志文件中是否存在错误,由于Internet连接速度慢或超时(最大)问题,会出现一些错误。检查日志以获取详细信息