zookeeper和Kafka在hadoop 2.6集群中的位置

时间:2015-07-27 11:32:27

标签: hadoop apache-zookeeper apache-kafka

Hadoop 2.6使用Yarn作为下一代map reduce,也是集群管理器。我们是否还需要使用带有hadoop 2.6的zookeeper进行集群管理服务?我们如何设置zookeeper。

如何为hadoop群集安装Kafka连接。 kafka将数据发送到hadoop文件系统的消费者和生产者是什么。

他们都适合。

我已经设置了一个hadoop 2.6单节点集群。接下来,我理解它的方法是让zookeeper和Kafka用于数据流到hadoop文件系统。 我不知道如何使用kafka来支持hadoop或它的api。

2 个答案:

答案 0 :(得分:4)

Zookeeper是分布式系统的协调框架。 Zookeeper用于协调HDFS中的状态。高可用性,Hbase主服务器和区域服务器之间的协调等。 Kafka与Apache Storm,Apache HBase和Apache Spark结合使用,可以实时分析和呈现流数据。 常见用例包括:

  1. 流处理。
  2. 网站活动跟踪
  3. 指标收集和监控
  4. 日志聚合
  5. 通常我们会使用Kafka和Storm。 Storm需要一个zookeeper集群来协调nimbus和supervisor之间的协调。 Kafka需要zookeeper来存储有关群集状态和消费者抵消的信息。

    zookeeper基本上提供了一个高度可用的文件系统,用户/应用程序可以读取/写入小数据。该数据可以是与通信或交易相关的事物。由于文件系统具有高可用性,因此通信将始终完成,并且不会进入部分或未知状态。 Zookeeper集群可以承受一定数量的故障,具体取决于分区的数量(比如N),它可以容忍N-1个故障。 有关详情,请参阅以下网址1 2 3

答案 1 :(得分:2)

Kafka致力于生产者/消费者的概念,其中生产者写入主题,消费者使用主题中的数据。每个使用者都可以使用该主题的任何可用分区中的数据。

主题的消费者也在ZooKeeper中注册,以便相互协调并平衡数据的消耗。

消费者跟踪他们在每个分区中消耗的最大偏移量。如果offsets.storage = zookeeper,则此值存储在ZooKeeper目录中。该值存储在ZooKeeper目录中。 / consumers / [group_id] / offsets / [topic] / [broker_id-partition_id] - > offset_counter_value((持久节点)。有关在Kafka中使用zookeeper的更多信息,请参阅kafka documentation