hadoop上的nutch在完成之前一直在戒烟

时间:2015-04-16 19:15:23

标签: hadoop nutch

我使用3节点hadoop集群运行nutch 1.7。我在seeds.txt文件中输入了超过3000个网址。成功状态令人惊讶地快速完成。当我在solr中检查结果时,许多URL都没有返回任何内容。大多数内容确实只有一页的价值。

我重试了一个之前没有结果的网址。现在它获得了94页的内容。所以问题绝对不是机器人拒绝造成的。

每当我重新整理整个列表时,它会运行一段时间并获得更多页面内容,但永远不会完成列表。

什么可能导致nutch退出?

0 个答案:

没有答案