当处理超过一百万个提取的页面时,Apache Nutch无限期挂在updatedb上

时间:2018-11-01 14:44:25

标签: apache hadoop hdfs nutch

我已经使用Apache Nutch一段时间了,只要我的抓取保持在100万左右页面以下,它就可以很好地工作。但是一旦我进入数百万,updateb将永远花费并永远不会完成-我已经等待了几天又几天,几乎一个星期才完成。

有明显的原因吗?如果是这样,有什么减轻的办法吗?

我已经看到了使用Hadoop而不是HBase的讨论,并且尝试使用Hadoop,但是遇到了许多问题。但是,可以解决这个问题吗?

感谢所有帮助。

0 个答案:

没有答案