我很有趣 - 可以认为是一个很好的吞吐量
对于每个节点的hadoop轻量级文本数据处理?
更具体地说,我会问:
假设我必须读取csv文件,解析它们并计算某些列中特定值的数量。让我们假设值很少,因此reduce步骤很快。
现代四核CPU / 4 GB RAM / 4 SATA磁盘机每个hadoop节点的吞吐量是多少?
答案 0 :(得分:1)
我觉得这个问题很合理。我得到了一个带有
的hadoop集群吞吐量的印象(SizeOfInput + SizeOfOutput) / RuntimeInSeconds / NumberOfDisks
对于在3800个节点上运行商用硬件(每个节点2个磁盘)运行的yahoo PB-Sort,该简单表达式的计算结果为:2.24 MB /(s和磁盘)。
对于IO绑定的作业(搜索DFSIO测试),您将找到大约20 MB /(s和磁盘)的集群。
我认为你现在找不到带有商用硬件的hadoop集群,它在IO绑定作业上有超过20MB /(s和磁盘)。但我可能错了。