标签: hadoop nutch
我使用3节点hadoop集群运行nutch 1.7。我在seeds.txt文件中输入了超过3000个网址。成功状态令人惊讶地快速完成。当我在solr中检查结果时,许多URL都没有返回任何内容。大多数内容确实只有一页的价值。
我重试了一个之前没有结果的网址。现在它获得了94页的内容。所以问题绝对不是机器人拒绝造成的。
每当我重新整理整个列表时,它会运行一段时间并获得更多页面内容,但永远不会完成列表。
什么可能导致nutch退出?