应用错误收集

当处理超过一百万个提取的页面时，Apache Nutch无限期挂在updatedb上

时间：2018-11-01 14:44:25

标签： apache hadoop hdfs nutch

我已经使用Apache Nutch一段时间了，只要我的抓取保持在100万左右页面以下，它就可以很好地工作。但是一旦我进入数百万，updateb将永远花费并永远不会完成-我已经等待了几天又几天，几乎一个星期才完成。

有明显的原因吗？如果是这样，有什么减轻的办法吗？

我已经看到了使用Hadoop而不是HBase的讨论，并且尝试使用Hadoop，但是遇到了许多问题。但是，可以解决这个问题吗？

感谢所有帮助。

0 个答案:

没有答案