应用错误收集

在Hadoop群集上解决字数统计是否有意义？

时间：2019-01-08 09:56:35

标签： hadoop mapreduce

关于Hadoop MapReduce的许多教程都以单词计数示例开始。但是，我记得在我的分布式计算类中（这是在Hadoop诞生之前），只有当子任务具有较细的粒度时，分布式计算才可以加快速度，这意味着计算时间超过了通信时间。在“字数统计”中，时间复杂度（如果使用哈希表并假设字长为常数限制）是线性的。因此，似乎没有理由为将输入文件传输到HDFS以及随后的“排序和混洗”阶段付出代价。我想念什么吗？

1 个答案:

答案 0 :(得分：1)

不清楚您所建议的替代方法是什么，但是WordCount就像用您喜欢的语言打印Hello World一样。

它教您一些基本概念，它并不是要成为如何使用MapReduce或真正如何优化Hadoop集群的主要示例（存储行分隔文本以进行分析并不是Hadoop的亮点）。

向未充分利用的服务器添加更多群集节点是否有意义？
多节点集群上Hadoop中运行字数统计示例的例外情况
创建比我们拥有的节点更多的减速器是否有意义？
在hadoop上运行字数
在通过qsub从Python提交的集群上运行作业。是否有意义？
运行带有一百万次扫描的hbase mapreduce工作是否有意义？
列上的FIND_IN_SET？是否有意义？
使用Spark处理完全独立的子任务是否有意义？
在单个主机上运行多节点Elasticsearch集群是否有意义？
在Hadoop群集上解决字数统计是否有意义？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？