我想迭代地调用集群中的map-reduce作业。在每次迭代中,映射器应该处理大约10000个庞大的记录。在每次迭代中,主节点使用不同的参数调用那些映射器,但输入记录保持不变。每次调用映射器时都不需要加载这些记录;将它们跨迭代缓存在主存储器中会很棒,只需处理给定的新参数值。
我计划使用运行Hadoop的AWS Elastic MapReduce,我的实现使用Python,因此Java API似乎没有帮助。是否有可能在该架构中实现此类缓存?如果没有,AWS或其他公共云中的合适架构是什么?
答案 0 :(得分:1)
Hadoop 1中的Map / Reduce不适用于此。你应该看看Hadoop 2.0和YARN,它可以实现更灵活的模型。
您还可以查看Apache Hama can run on AWS并通过steaming支持python