我可以从AWS Elastic Mapreduce作业访问zookeeper吗?

时间:2012-10-27 03:46:01

标签: hadoop amazon-web-services apache-zookeeper elastic-map-reduce emr

我是Hadoop的新手,在AWS Elastic Mapreduce下运行。

我需要在Hadoop中使用群集范围的原子计数器,并建议使用zookeeper。

我相信zookeeper是Hadoop堆栈的一部分(对吗?),我如何从Elastic Mapreduce作业访问它以设置和更新群集范围的计数器?

2 个答案:

答案 0 :(得分:0)

  

我相信zookeeper是Hadoop堆栈的一部分(对吧?)

ZooKeeper(ZK)不是Hadoop Stack的一部分。它是Apache下的顶级项目(TLP),独立于Hadoop。因此,首先必须在EC2上安装ZK。以下是相同的instructions

  

如何从Elastic Mapreduce作业访问它以设置和更新群集范围的计数器?

安装完成后,ZK可用于使用ZK API生成群集范围的计数器。这里(12)讨论了有利有弊的方法。以下是针对相同要求的ZK的其他alternatives

答案 1 :(得分:0)

你可以像Praveen Sripati一样回答。 但我不想澄清一些观点:

  1. 请记住,zk的写入速率有限(每个请求约300个) 第二)
  2. 客户端可以看到过时的数据(zk不保证跨副本的读取一致性)。
  3. 我建议使用专用序列生成器服务器,它将为您生成序列(此服务可以使用Zk或任何它想要的)。此类服务的一个示例:https://github.com/kasabi/H1