使用MongoDB中的Map Reduce计算简单移动平均值

时间:2013-05-16 07:31:10

标签: mongodb hadoop mapreduce

我偶然发现了这篇文章:

http://blog.cloudera.com/blog/2011/04/simple-moving-average-secondary-sort-and-mapreduce-part-3/

提到了如何使用Hadoop计算移动平均线。

请注意,KEY的所有记录都应该排序然后减少。现在假设特定KEY的记录分布在Mongo集群的所有分片中。在这种情况下,是否可以计算移动平均线?

据我所知,Mongo会在每个节点上缩小地图。解决此问题的主要要求是确保在单个减少阶段减少地图的所有发射。如果是这种情况,那么Mongo Map Reduce永远无法解决这些问题。有一些基本的误解吗?

此外,凭借数十亿行和数PB的数据,为什么Hadoop Reduce阶段不会崩溃内存,因为它必须处理至少几TB的映射数据。

0 个答案:

没有答案