Question

在Nutch 1.8：

在抓取开始时，下面详述的map-reduce任务似乎运行得更快。但是，在仅抓取40,000页后，map-reduce任务似乎需要更长的时间。查看下面的日志，需要一秒钟才能完成map-reduce任务的1％。有关制作map-reduce任务的任何想法需要很长时间才能完成吗？我只是通过-dir参数将爬网结果转储到目录中，在hadoop中没有添加配置，我也没有使用其他存储库。感谢。

其他问题：

进一步调查问题后，仍无法理解这个map-reduce任务的作用。为什么Nutch表演这个？

2015-11-19 10:07:16,707 INFO  regex.RegexURLNormalizer (RegexURLNormalizer.java:regexNormalize(174)) - can't find rules for scope 'crawldb', using default
2015-11-19 10:07:17,172 INFO  mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) -  map 57% reduce 0%
2015-11-19 10:07:22,664 INFO  mapred.LocalJobRunner (LocalJobRunner.java:statusUpdate(466)) - file:/C:/Users/user/workspace/trunk/crawl/crawldb/current/part-00000/data:100663296+33554432
2015-11-19 10:07:23,172 INFO  mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) -  map 59% reduce 0%
2015-11-19 10:07:25,664 INFO  mapred.LocalJobRunner (LocalJobRunner.java:statusUpdate(466)) - file:/C:/Users/user/workspace/trunk/crawl/crawldb/current/part-00000/data:100663296+33554432
2015-11-19 10:07:26,172 INFO  mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) -  map 60% reduce 0%

在apache nutch中优化map reduce操作

0 个答案: