Hadoop何时应该比顺序程序执行得更快?
我在单个节点hdfs上运行字数统计,从hdfs打开文件并遍历每个单词的顺序版本实际上比教程中的hadoop实现更快,似乎大多数时间花在产卵地图上。
这应该发生吗?我有什么错误的设置吗?或者Hadoop不应该比单个节点实例上的顺序程序更快?我很困惑。
答案 0 :(得分:0)
这个等式有很多参数。使用了多少台服务器/数据节点?每个CPU核心和可用内存有多少?您阅读的数据是否可拆分? (例如,二进制格式不可拆分,将由单个映射器读取)等等。
您的问题中没有足够的此类信息,因此这些是您在设定绩效期望时应该注意的原则。