应用错误收集

我有两台机器集群。在一台机器上配置nutch并在第二个hbase和hadoop上配置。 hadoop处于完全分布式模式，hbase处于伪分布式模式。我已经抓取了大约280GB的数据。但现在我开始爬行了。它提供了以下消息，并且不再在上一个表中抓取

INFO mapreduce.GoraRecordReader - gora.buffer.read.limit = 10000 INFO crawl.FetchScheduleFactory - 使用FetchSchedule impl：org.apache.nutch.crawl.DefaultFetchSchedule

并关注错误

错误store.HBaseStore - [Ljava.lang.StackTraceElement; @ 7ae0c96b

提取文档，但它们不会保存在hbase中。但是，如果我在新表中抓取数据，它可以正常运行并且可以正常爬网而不会出现任何错误。我认为这不是一个连接问题，因为它有效的新表。我认为这是一些财产等因素。

任何人都可以指导我，因为我不是apache nutch的专家吗？

Apache nutch不再抓取了

2 个答案: