如何计算映射器/缩减器的数量,以最大化在亚马逊云上运行的mahout RecommenderJob的性能?

时间:2013-03-06 20:51:26

标签: hadoop amazon mahout reducers mappers

根据Amazon Elastic MapReduce上使用/可用的实例,计算正确数量的hadoop映射器和减速器的最佳方法是什么? (使用mahout-core-0.7分布的RecommenderJob)

1 个答案:

答案 0 :(得分:1)

通用Hadoop答案适用:

  • 让Hadoop选择mappers的数量
  • 将减速器数设置为等于群集中减少插槽的数量

对于EMR,请查找您正在使用的实例类型上默认运行的Reducer数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopMemoryDefault_AMI2.3.html

然后乘以您正在使用的工人数量。这是一个非常理想的减速器数量 - 甚至是它的一小部分。

在你有特别的理由认为这些不是最优的之前,我会选择这个。

PS不要忘记为工人使用现场实例以节省资金和/或部署更多工人。

广告中断:如果您对Mahout感兴趣,推荐并在EMR上运行,您可能应该关注Myrrix。我是创始人,也是你现在正在运行的一些Mahout代码的作者。这是一款基于Hadoop的“下一代”推荐产品,除其他外,已经针对EMR进行了优化。