在Nutch 1.8:
在抓取开始时,下面详述的map-reduce任务似乎运行得更快。但是,在仅抓取40,000页后,map-reduce任务似乎需要更长的时间。查看下面的日志,需要一秒钟才能完成map-reduce任务的1%。有关制作map-reduce任务的任何想法需要很长时间才能完成吗?我只是通过-dir
参数将爬网结果转储到目录中,在hadoop中没有添加配置,我也没有使用其他存储库。感谢。
其他问题:
进一步调查问题后,仍无法理解这个map-reduce任务的作用。为什么Nutch表演这个?
2015-11-19 10:07:16,707 INFO regex.RegexURLNormalizer (RegexURLNormalizer.java:regexNormalize(174)) - can't find rules for scope 'crawldb', using default
2015-11-19 10:07:17,172 INFO mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) - map 57% reduce 0%
2015-11-19 10:07:22,664 INFO mapred.LocalJobRunner (LocalJobRunner.java:statusUpdate(466)) - file:/C:/Users/user/workspace/trunk/crawl/crawldb/current/part-00000/data:100663296+33554432
2015-11-19 10:07:23,172 INFO mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) - map 59% reduce 0%
2015-11-19 10:07:25,664 INFO mapred.LocalJobRunner (LocalJobRunner.java:statusUpdate(466)) - file:/C:/Users/user/workspace/trunk/crawl/crawldb/current/part-00000/data:100663296+33554432
2015-11-19 10:07:26,172 INFO mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) - map 60% reduce 0%