我想知道如何设置
的数量NameNodes
DataNodes
映射器
减速机
在 Hadoop 的代码/配置中。
答案 0 :(得分:1)
Namenode和DataNode计数取决于您的业务需求。你不能通过编程设置它们。
如果需要可伸缩性,则必须研究HDFS联合的概念。
有关联合的更多详细信息,请参阅此文档page。
为了横向扩展名称服务,联合使用多个独立的Namenodes /名称空间。 Namenodes是联合的; Namenodes是独立的,不需要相互协调。 Datanodes用作所有Namenode的块的公共存储。
映射器数量由输入拆分决定。
您可以以编程方式设置缩减器数量,但框架没有义务遵守您的建议。
因此,最好让Hadoop决定对Mappers和Reducers的数量做出决定。
看看这个相关的SE问题:
How hadoop decides how many nodes will do map and reduce tasks
修改强>
Hadoop群集大小: 1.根据业务需求确定数据需求 2.确定数据的重复因子 3.计算未来几年的数据扩展率 4.获得上述数据后,您可以考虑Namenode和Datanode的理想簇大小和硬件要求。
有关详细信息,请参阅此cloudera article。
地图的正确并行度似乎是每个节点大约10-100个地图"这里的节点是指NameNode还是DataNode? p>
它的Datanode。
在谈论Mappers时,有些人说的是与分裂相同的数字,另一个人说的是相同数量的块,而另一些人则说它是由框架确定的
由hadoop框架决定,取决于输入分割的数量。
看看相关的SE问题: