大规模Hadoop集群的计算和存储容量之间的典型关系是什么?

时间:2012-01-01 20:32:53

标签: mapreduce data-warehouse

我正在考虑确定需要支持计算绑定深度分析以及I / O绑定大数据的大型集群(10k核心)的尺寸,我想听听一些构建了大数据集群的人们的意见他们过去常常将计算与本地磁盘存储相对应。我假设一个直接附加存储架构,由基于MapReduced的在线数据仓库提倡

考虑一下中型密度刀片设备anno 2012,例如双Xeon 5650,我可以将每台服务器大约2TB作为直接连接存储。这将给我每2TB存储大约100TFlops,或5:1的比例。低密度设备可以低至1:1,高密度设备可高达10:1。

我很想知道其他大数据用户的比例是多少。

2 个答案:

答案 0 :(得分:2)

以下是一些文章1 2 3,以便开始使用Hadoop硬件规模。

答案 1 :(得分:1)

来自Praveen的2011年9月HortonWorks的Eric Baldeschwieler的第三篇文章:

我们被问到很多关于如何选择Apache Hadoop工作节点硬件的问题。在Yahoo!期间,我们购买了大量节点,其中包括6 * 2TB SATA驱动器,24GB RAM和8个内核,采用双插槽配置。事实证明这是一个非常好的配置。今年,我看到系统配备12 * 2TB SATA驱动器,48GB RAM和8个内核,采用双插槽配置。今年我们将看到转向3TB硬盘。

对于任何给定的组织而言,哪种配置是有意义的,例如工作负载的存储与计算比率以及无法以通用方式回答的其他因素之类的比率。此外,硬件行业发展迅速。在这篇文章中,我将尝试概述在过去六年中通常指导Hadoop硬件配置选择的原则。所有这些想法都旨在设计中型到大型Apache Hadoop集群。前几天,Scott Carey在Apache邮件列表上为小型集群的小型机器做了一个很好的案例。