在Hadoop群集上解决字数统计是否有意义?

时间:2019-01-08 09:56:35

标签: hadoop mapreduce

关于Hadoop MapReduce的许多教程都以单词计数示例开始。但是,我记得在我的分布式计算类中(这是在Hadoop诞生之前),只有当子任务具有较细的粒度时,分布式计算才可以加快速度,这意味着计算时间超过了通信时间。在“字数统计”中,时间复杂度(如果使用哈希表并假设字长为常数限制)是线性的。因此,似乎没有理由为将输入文件传输到HDFS以及随后的“排序和混洗”阶段付出代价。我想念什么吗?

1 个答案:

答案 0 :(得分:1)

不清楚您所建议的替代方法是什么,但是WordCount就像用您喜欢的语言打印Hello World一样。

它教您一些基本概念,它并不是要成为如何使用MapReduce或真正如何优化Hadoop集群的主要示例(存储行分隔文本以进行分析并不是Hadoop的亮点)。