建议在Hadoop中处理2TB数据的映射器和缩减器数量是多少?

时间:2017-03-25 16:26:08

标签: hadoop mapreduce hdfs

我正在尝试为我们的一个客户开发一个Hadoop项目。我们每天将收到大约2 TB的数据,因此作为对帐的一部分,我们希望阅读2 TB数据并执行排序和过滤操作。

我们已经设置了Hadoop集群,其中包含5个数据节点,这些节点在t2x.large AWS实例上运行,包含4个CPU内核和16GB RAM。为了快速完成数据处理,我们需要启动的映射器和减速器的数量是多少?

1 个答案:

答案 0 :(得分:1)

看看这个:

http://crazyadmins.com/tune-hadoop-cluster-to-get-maximum-performance-part-1/

http://crazyadmins.com/tune-hadoop-cluster-to-get-maximum-performance-part-2/

这取决于任务性质,如果它是RAM或CPU消耗以及系统的并行程度。

如果每个节点包含4个CPU核心和16GB RAM。平均而言,我建议每个节点上有4到6个map-reduce任务。

创建太多的mapred任务会降低你的cpu性能,你可能会遇到容量问题,因为内存不足。