我对此处解释的MapReduce示例有疑问:
这确实是hadoop MapReduce最常见的例子,WordCount。
我能够在Cosmos的全局实例中执行它没有任何问题,但即使我给它一个小输入(一个有2行或3行的文件),执行它需要很多(半分钟或者更多)减)。我认为这是它的正常行为,但我的问题是:¿为什么即使是小输入它也需要这么长时间?
我想这种方法可以通过更大的数据集增加其有效性,而这种最小延迟可以忽略不计。
答案 0 :(得分:0)
首先,你必须考虑到FIWARE LAB的当前Cosmos实例是Hadoop的共享实例,因此许多其他用户可能同时执行MapReduce作业,从而导致"竞争&# 34;用于计算资源。
据说,MapReduce是为大型数据集和larga数据文件设计的。它增加了很多开销,在处理几行时没有必要(因为有几行你不需要MapReduce!:)但是当这些行是thounsands时它会有很多帮助甚至数百万。在这些情况下,处理时间与数据大小成正比,当然,不是以1:1的比例说出来。