Question

我很有趣 - 可以认为是一个很好的吞吐量对于每个节点的hadoop轻量级文本数据处理？
更具体地说，我会问：假设我必须读取csv文件，解析它们并计算某些列中特定值的数量。让我们假设值很少，因此reduce步骤很快。
现代四核CPU / 4 GB RAM / 4 SATA磁盘机每个hadoop节点的吞吐量是多少？

Answer 1

我觉得这个问题很合理。我得到了一个带有

的hadoop集群吞吐量的印象

(SizeOfInput + SizeOfOutput) / RuntimeInSeconds / NumberOfDisks

对于在3800个节点上运行商用硬件（每个节点2个磁盘）运行的yahoo PB-Sort，该简单表达式的计算结果为：2.24 MB /（s和磁盘）。

对于IO绑定的作业（搜索DFSIO测试），您将找到大约20 MB /（s和磁盘）的集群。

我认为你现在找不到带有商用硬件的hadoop集群，它在IO绑定作业上有超过20MB /（s和磁盘）。但我可能错了。

Hadoop MapReduce吞吐量问题

1 个答案: