应用错误收集

时间：2016-01-08 11:51:31

标签： hadoop mapreduce

我有一个用于小文件的MR代码，它需要7分钟才能获得15gb的单个文件。但对于37gb的多个文件，它花费了太多时间并且在1分钟内始终显示百分比1％。请建议我。

答案 0 :(得分：0)

MapReduce从未设计用于低延迟。 MapReduce的想法是，您可以并行处理所有数据。关键的想法是通过并行来缩短时间。

以wordcount为例。可以说，您希望在50 GB上运行wordcount。在一台机器上运行它可能需要很长时间。与之并行可以说10台机器并行意味着每台机器5 GB。这是一个改进。这就是MapReduce的设计目的。

如果您正在寻找能够快速返回结果的技术，并且还要使用随机读取，请考虑使用其他技术。根据您的具体需求，有几种方法可以更好地解决您的问题。

答案 1 :(得分：0)

我错误地将自定义记录器放入代码中，因此每次MR运行时都会记录MR日志文件，这就是为什么需要时间。