在apache nutch中优化map reduce操作

时间:2015-11-19 02:20:49

标签: hadoop nutch

在Nutch 1.8:

在抓取开始时,下面详述的map-reduce任务似乎运行得更快。但是,在仅抓取40,000页后,map-reduce任务似乎需要更长的时间。查看下面的日志,需要一秒钟才能完成map-reduce任务的1%。有关制作map-reduce任务的任何想法需要很长时间才能完成吗?我只是通过-dir参数将爬网结果转储到目录中,在hadoop中没有添加配置,我也没有使用其他存储库。感谢。

其他问题:

进一步调查问题后,仍无法理解这个map-reduce任务的作用。为什么Nutch表演这个?

2015-11-19 10:07:16,707 INFO  regex.RegexURLNormalizer (RegexURLNormalizer.java:regexNormalize(174)) - can't find rules for scope 'crawldb', using default
2015-11-19 10:07:17,172 INFO  mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) -  map 57% reduce 0%
2015-11-19 10:07:22,664 INFO  mapred.LocalJobRunner (LocalJobRunner.java:statusUpdate(466)) - file:/C:/Users/user/workspace/trunk/crawl/crawldb/current/part-00000/data:100663296+33554432
2015-11-19 10:07:23,172 INFO  mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) -  map 59% reduce 0%
2015-11-19 10:07:25,664 INFO  mapred.LocalJobRunner (LocalJobRunner.java:statusUpdate(466)) - file:/C:/Users/user/workspace/trunk/crawl/crawldb/current/part-00000/data:100663296+33554432
2015-11-19 10:07:26,172 INFO  mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) -  map 60% reduce 0%

0 个答案:

没有答案