应用错误收集

我有一个600万行文本文件，行长达32,000个字符，我想测量字长频率。

最简单的方法是让Mapper为每个单词创建一个（字长，1）键值对，让一个＆＃39;聚合＆＃39;减速机完成剩下的工作。

在映射器中执行某些聚合会更有效吗？键值对输出的位置是（word-length，frequency_per_line）。

映射器的输出将减少每行平均字数的因子。

我知道涉及很多配置因素。但是，是否存在一条硬性规则，说明大部分工作或工作应该由Mapper还是Reducer完成？

该平台是具有学生帐户的AWS，仅限于以下配置。 AWS Cluster - Hardware Configuration