我已经设置了一个小型集群Hadoop 2.7,Hbase 0.98和Nutch 2.3.1。我编写了一个自定义作业,首先简单地合并同一个域的文档,然后首先从高速缓存中获取域的每个URL(来自缓存,即列表),然后使用相应的键通过{{1}获取对象},然后在更新分数之后,通过datastore.get(url_key)
编写分数。
在处理完所有文档之后,该工作应该完成,但是我观察到,由于超时和进度失败而导致的每次尝试都是100%完成显示。这是日志
context.write
是什么意思,即,如果尝试完成100.00%,则应将其标记为成功。不幸的是,对于我的情况,除了超时以外,没有任何其他错误信息。如何调试此问题? 我的减速机已发布到另一个问题 Apache Nutch 2.3.1 map-reduce timeout occurred while updating the score
答案 0 :(得分:0)
我观察到,在上述3个日志中,执行所需的时间差异很大。请查找正在执行一次的作业。