Hadoop术语映射到硬件

时间:2013-05-15 16:53:14

标签: hadoop

我开始在Hadoop中尝试实现Hadoop集群。我是分布式系统的新手,所以对术语有点困惑。

  • 名称节点和数据节点是否与物理硬盘相对应?
  • 如果说我需要在单个cpu单元上运行map任务,我们是否在设置mapred.tasktracker.map.tasks.maximum标志时将映射任务分配给单个核心或处理器(具有多核)
  • “节点”意味着什么?处理器或物理磁盘或核心?

1 个答案:

答案 0 :(得分:1)

首先(在术语前面),我假设你的意思是实例化一个Hadoop集群,而不是实现一个。

  • namenode管理一个或多个datanode。块ID的文件名索引由内存中的namenode维护,并定期刷新到磁盘。这些块的实际位置由数据节点报告给名称节点,从那时起它管理块的分配,迁移,复制和删除。
  • datanode管理物理硬盘上的块存储。 datanode可以将其块分布在一个或多个物理磁盘上(事实上,鼓励您使用多个物理磁盘而不是单个逻辑磁盘卷)。
  • 作业跟踪器(JT)管理任务分配(映射或缩减)到一个或多个任务跟踪器(TT)的过程。通常,您将配置群集中的每个节点(物理机),以便可以运行的最大数量任务(map / reduce)与核心数量匹配(不是硬性规则和快速规则,取决于您希望如何使用群集)
  • 节点通常意味着物理机器,它通常运行任务跟踪器(运行map / reduce任务)和数据节点(存储/提供文件块)。