有人可以帮助我理解下面与Hadoop 1.x相关的问题吗?
假设我只有一个节点,我有8 GB的RAM和40 TB的四核处理器硬盘。块大小为64 MB。我们需要处理4 TB的数据。 我们如何确定Mappers和Reducers的数量?
有人可以详细解释一下吗?如果我需要考虑任何其他参数进行计算,请告诉我。
假设我在群集中有10个数据节点,每个节点有8 GB的RAM和40 TB的四核处理器硬盘。块大小为64MB。我们需要处理40 TB的数据。我们如何确定Mappers和Reducers的数量?
使用四核处理器的数据节点中映射器和缩减器插槽的默认数量是多少?
非常感谢, 和Manish
答案 0 :(得分:0)
映射器数量=分割数量。 输入文件将分为分割。每个拆分都有一组记录。平均而言,每个拆分大小为一个块(64 MB以上)。因此,在您的情况下,您将拥有大约62500个映射器(或拆分)(4TB / 64)。您还可以选择提供可配置的输入分割大小。通常,这是在读取整个文件一次时完成的,并且您决定应如何处理记录。
reducers数量= mapper输出中唯一键的数量。您可以通过在作业类或jab运行命令中配置它们来选择减速器的数量。以上数字基于默认的散列分区程序。您可以创建自己的分区程序,它可以决定减速机的数量。