根据Amazon Elastic MapReduce上使用/可用的实例,计算正确数量的hadoop映射器和减速器的最佳方法是什么? (使用mahout-core-0.7分布的RecommenderJob)
答案 0 :(得分:1)
通用Hadoop答案适用:
对于EMR,请查找您正在使用的实例类型上默认运行的Reducer数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopMemoryDefault_AMI2.3.html
然后乘以您正在使用的工人数量。这是一个非常理想的减速器数量 - 甚至是它的一小部分。
在你有特别的理由认为这些不是最优的之前,我会选择这个。
PS不要忘记为工人使用现场实例以节省资金和/或部署更多工人。
广告中断:如果您对Mahout感兴趣,推荐并在EMR上运行,您可能应该关注Myrrix。我是创始人,也是你现在正在运行的一些Mahout代码的作者。这是一款基于Hadoop的“下一代”推荐产品,除其他外,已经针对EMR进行了优化。