Hadoop MapReduce吞吐量问题

时间:2011-01-31 08:36:27

标签: performance hadoop

我很有趣 - 可以认为是一个很好的吞吐量 对于每个节点的hadoop轻量级文本数据处理?
更具体地说,我会问: 假设我必须读取csv文件,解析它们并计算某些列中特定值的数量。让我们假设值很少,因此reduce步骤很快。
现代四核CPU / 4 GB RAM / 4 SATA磁盘机每个hadoop节点的吞吐量是多少?

1 个答案:

答案 0 :(得分:1)

我觉得这个问题很合理。我得到了一个带有

的hadoop集群吞吐量的印象
(SizeOfInput + SizeOfOutput) / RuntimeInSeconds / NumberOfDisks

对于在3800个节点上运行商用硬件(每个节点2个磁盘)运行的yahoo PB-Sort,该简单表达式的计算结果为:2.24 MB /(s和磁盘)。

对于IO绑定的作业(搜索DFSIO测试),您将找到大约20 MB /(s和磁盘)的集群。

我认为你现在找不到带有商用硬件的hadoop集群,它在IO绑定作业上有超过20MB /(s和磁盘)。但我可能错了。