应用错误收集

Namenode和DataNode计数取决于您的业务需求。你不能通过编程设置它们。

如果需要可伸缩性，则必须研究HDFS联合的概念。

有关联合的更多详细信息，请参阅此文档page。

为了横向扩展名称服务，联合使用多个独立的Namenodes /名称空间。 Namenodes是联合的; Namenodes是独立的，不需要相互协调。 Datanodes用作所有Namenode的块的公共存储。

映射器数量由输入拆分决定。

您可以以编程方式设置缩减器数量，但框架没有义务遵守您的建议。

因此，最好让Hadoop决定对Mappers和Reducers的数量做出决定。

修改

Hadoop群集大小： 1.根据业务需求确定数据需求 2.确定数据的重复因子 3.计算未来几年的数据扩展率 4.获得上述数据后，您可以考虑Namenode和Datanode的理想簇大小和硬件要求。

有关详细信息，请参阅此cloudera article。

地图的正确并行度似乎是每个节点大约10-100个地图＆＃34;这里的节点是指NameNode还是DataNode？

它的Datanode。

在谈论Mappers时，有些人说的是与分裂相同的数字，另一个人说的是相同数量的块，而另一些人则说它是由框架确定的

由hadoop框架决定，取决于输入分割的数量。

看看相关的SE问题：

How does Hadoop perform input splits?

如何在Hadoop中设置NameNode，DataNodes，Mappers和Reducers的数量

1 个答案: