Fiware-Cosmos MapReduce

时间:2015-03-03 16:49:54

标签: hadoop mapreduce fiware fiware-cygnus

我对此处解释的MapReduce示例有疑问:

http://forge.fiware.org/plugins/mediawiki/wiki/fiware/index.php/BigData_Analysis_-_Quick_Start_for_Programmers

这确实是hadoop MapReduce最常见的例子,WordCount。

我能够在Cosmos的全局实例中执行它没有任何问题,但即使我给它一个小输入(一个有2行或3行的文件),执行它需要很多(半分钟或者更多)减)。我认为这是它的正常行为,但我的问题是:¿为什么即使是小输入它也需要这么长时间?

我想这种方法可以通过更大的数据集增加其有效性,而这种最小延迟可以忽略不计。

1 个答案:

答案 0 :(得分:0)

首先,你必须考虑到FIWARE LAB的当前Cosmos实例是Hadoop的共享实例,因此许多其他用户可能同时执行MapReduce作业,从而导致"竞争&# 34;用于计算资源。

据说,MapReduce是为大型数据集和larga数据文件设计的。它增加了很多开销,在处理几行时没有必要(因为有几行你不需要MapReduce!:)但是当这些行是thounsands时它会有很多帮助甚至数百万。在这些情况下,处理时间与数据大小成正比,当然,不是以1:1的比例说出来。