应用错误收集

zookeeper和Kafka在hadoop 2.6集群中的位置

时间：2015-07-27 11:32:27

标签： hadoop apache-zookeeper apache-kafka

Hadoop 2.6使用Yarn作为下一代map reduce，也是集群管理器。我们是否还需要使用带有hadoop 2.6的zookeeper进行集群管理服务？我们如何设置zookeeper。

如何为hadoop群集安装Kafka连接。 kafka将数据发送到hadoop文件系统的消费者和生产者是什么。

他们都适合。

我已经设置了一个hadoop 2.6单节点集群。接下来，我理解它的方法是让zookeeper和Kafka用于数据流到hadoop文件系统。我不知道如何使用kafka来支持hadoop或它的api。

2 个答案:

答案 0 :(得分：4)

Zookeeper是分布式系统的协调框架。 Zookeeper用于协调HDFS中的状态。高可用性，Hbase主服务器和区域服务器之间的协调等。 Kafka与Apache Storm，Apache HBase和Apache Spark结合使用，可以实时分析和呈现流数据。常见用例包括：

流处理。
网站活动跟踪
指标收集和监控
日志聚合

通常我们会使用Kafka和Storm。 Storm需要一个zookeeper集群来协调nimbus和supervisor之间的协调。 Kafka需要zookeeper来存储有关群集状态和消费者抵消的信息。

zookeeper基本上提供了一个高度可用的文件系统，用户/应用程序可以读取/写入小数据。该数据可以是与通信或交易相关的事物。由于文件系统具有高可用性，因此通信将始终完成，并且不会进入部分或未知状态。 Zookeeper集群可以承受一定数量的故障，具体取决于分区的数量（比如N），它可以容忍N-1个故障。有关详情，请参阅以下网址1 2 3

答案 1 :(得分：2)

Kafka致力于生产者/消费者的概念，其中生产者写入主题，消费者使用主题中的数据。每个使用者都可以使用该主题的任何可用分区中的数据。

主题的消费者也在ZooKeeper中注册，以便相互协调并平衡数据的消耗。

消费者跟踪他们在每个分区中消耗的最大偏移量。如果offsets.storage = zookeeper，则此值存储在ZooKeeper目录中。该值存储在ZooKeeper目录中。 / consumers / [group_id] / offsets / [topic] / [broker_id-partition_id] - ＆gt; offset_counter_value（（持久节点）。有关在Kafka中使用zookeeper的更多信息，请参阅kafka documentation