Mapper或Reducer,在哪里进行更多处理?

时间:2014-06-20 23:03:17

标签: mapreduce processing-efficiency

我有一个600万行文本文件,行长达32,000个字符,我想 测量字长频率。

最简单的方法是让Mapper为每个单词创建一个(字长,1)键值对,让一个'聚合'减速机完成剩下的工作。

在映射器中执行某些聚合会更有效吗?键值对输出的位置是(word-length,frequency_per_line)。

映射器的输出将减少每行平均字数的因子。

我知道涉及很多配置因素。但是,是否存在一条硬性规则,说明大部分工作或工作应该由Mapper还是Reducer完成?

该平台是具有学生帐户的AWS,仅限于以下配置。 AWS Cluster - Hardware Configuration

0 个答案:

没有答案