Hadoop完全分布式模式

时间:2011-06-03 19:14:03

标签: hadoop cloud mapreduce hdfs

我是Hadoop的新手。我已经设法开发了一个简单的Map / Reduce应用程序,在'伪分布式模式'下工作正常。我想在'完全分布式模式'下测试它。我对此几乎没有问题;

  1. 处理文件大小1-10GB需要多少台机器(节点)(最小和推荐)?
  2. 有哪些硬件要求(主要是,我想知道核心数,内存空间和磁盘空间)?

1 个答案:

答案 0 :(得分:2)

我会查看Cloudera的硬件建议:http://www.cloudera.com/blog/2010/03/clouderas-support-team-shares-some-basic-hardware-recommendations/

该页面的摘录

针对不同工作负载的各种硬件配置,包括我们原来的“基础”建议:

  • 光处理配置 (1U /机器):两个四核CPU,8GB 内存和4个磁盘驱动器(1TB或 2TB)。注意CPU密集型工作 比如自然语言处理 涉及加载大型模型 RAM在处理数据之前应该 配置2GB RAM /核心 而不是1GB RAM /核心。
  • 平衡计算配置(1U /机器):使用主板控制器直接连接两个四核CPU,16至24GB内存和4个磁盘驱动器(1TB或2TB)。这些通常作为双胞胎提供,在一个2U机柜中有两个主板和8个驱动器。
  • 存储大量配置(2U /机器):两个四核CPU,16到24GB内存和12个磁盘驱动器(1TB或2TB)。这种机器的功耗在空闲状态下约为200W左右,在激活时可高达~350W。
  • 计算密集配置(2U /机器):两个四核CPU,48-72GB内存和8个磁盘驱动器(1TB或2TB)。当需要组合大型内存模型和大量参考数据缓存时,通常会使用这些。