TestDFSIO对cdh 5.8.0进行基准测试

时间:2016-08-29 06:50:37

标签: hadoop benchmarking cloudera-cdh

环境详情:

操作系统:CentOS 7.2 CDH:CDH 5.8.0 主持人:11名(2名硕士,4名DN + NM,5名NM)

yarn.nodemanager.resource.memory-mb 32074MB(对于NodeManager group1)                                     82384MB(对于NodeManager组2)

我有一个带有11个节点的hadoop集群,2个主站,4个带有datanode&的从站。 nodemanager守护程序正在运行,5个节点上只运行nodemanager守护程序。在此群集上,我正在运行TestDFSIO基准测试作业,其中8TB负载具有10000个文件,每个文件大小为800MB。我注意到一些我无法理解的事情。

1)此作业的分割数显示为10000.为什么10000分裂,我的dfs.blocksize显示为128MB,按此设置,分割数应该超过10000对吗?

2)在资源管理器Web UI中,我看到在我的5个计算节点(仅运行nodemanager的节点)上,每个节点上只运行了32个映射任务。所有其他地图任务都在4 dn + nm节点上运行。为什么会这样? 我已将9个从属节点分配到两个节点组中。 4 dn + nm节点位于nodeManager group1中,其他5个slave位于另一个nodeManager group2中。 nodeManager group1中slave的yarn.nodemanager.resource.memory-mb为32074MB,nodeManager group2中的slave为82384MB。我认为理想情况下,nodeManager group2中的5个从属节点应该占用更多的地图。但为什么这不会发生?

1 个答案:

答案 0 :(得分:1)

  1. afair - TestDFSIO将为每个文件分配一个地图任务。这就是为什么你最终得到相同数量的地图任务,即使你的块大小更小。

  2. 您如何配置数据位置?映射器将更喜欢数据是本地的节点。这可以解释为什么在DataNode为本地的节点上获得更多任务。