我有一个600万行文本文件,行长达32,000个字符,我想 测量字长频率。
最简单的方法是让Mapper为每个单词创建一个(字长,1)键值对,让一个'聚合'减速机完成剩下的工作。
在映射器中执行某些聚合会更有效吗?键值对输出的位置是(word-length,frequency_per_line)。
映射器的输出将减少每行平均字数的因子。
我知道涉及很多配置因素。但是,是否存在一条硬性规则,说明大部分工作或工作应该由Mapper还是Reducer完成?
该平台是具有学生帐户的AWS,仅限于以下配置。