标签: apache hadoop hdfs nutch
我已经使用Apache Nutch一段时间了,只要我的抓取保持在100万左右页面以下,它就可以很好地工作。但是一旦我进入数百万,updateb将永远花费并永远不会完成-我已经等待了几天又几天,几乎一个星期才完成。
有明显的原因吗?如果是这样,有什么减轻的办法吗?
我已经看到了使用Hadoop而不是HBase的讨论,并且尝试使用Hadoop,但是遇到了许多问题。但是,可以解决这个问题吗?
感谢所有帮助。