Apache nutch不再抓取了

时间:2014-11-24 04:33:02

标签: java hadoop hbase web-crawler nutch

我有两台机器集群。在一台机器上配置nutch并在第二个hbase和hadoop上配置。 hadoop处于完全分布式模式,hbase处于伪分布式模式。我已经抓取了大约280GB的数据。但现在我开始爬行了。它提供了以下消息,并且不再在上一个表中抓取

INFO mapreduce.GoraRecordReader - gora.buffer.read.limit = 10000 INFO crawl.FetchScheduleFactory - 使用FetchSchedule impl:org.apache.nutch.crawl.DefaultFetchSchedule

并关注错误

错误store.HBaseStore   - [Ljava.lang.StackTraceElement; @ 7ae0c96b

提取文档,但它们不会保存在hbase中。 但是,如果我在新表中抓取数据,它可以正常运行并且可以正常爬网而不会出现任何错误。我认为这不是一个连接问题,因为它有效的新表。我认为这是一些财产等因素。

任何人都可以指导我,因为我不是apache nutch的专家吗?

2 个答案:

答案 0 :(得分:0)

不完全是我的领域,但看起来就像底层机器上的线程耗尽。

答案 1 :(得分:0)

因为我也面临着类似的问题。实际问题是regionserver(Hbase deamon)。因此,当与默认seeting一起使用时,尝试重新启动它,因为hbase中的数据太多了。有关更多信息,请参阅regionserver的日志文件。