Hadoop 2.6使用Yarn作为下一代map reduce,也是集群管理器。我们是否还需要使用带有hadoop 2.6的zookeeper进行集群管理服务?我们如何设置zookeeper。
如何为hadoop群集安装Kafka连接。 kafka将数据发送到hadoop文件系统的消费者和生产者是什么。
他们都适合。
我已经设置了一个hadoop 2.6单节点集群。接下来,我理解它的方法是让zookeeper和Kafka用于数据流到hadoop文件系统。 我不知道如何使用kafka来支持hadoop或它的api。
答案 0 :(得分:4)
Zookeeper是分布式系统的协调框架。 Zookeeper用于协调HDFS中的状态。高可用性,Hbase主服务器和区域服务器之间的协调等。 Kafka与Apache Storm,Apache HBase和Apache Spark结合使用,可以实时分析和呈现流数据。 常见用例包括:
通常我们会使用Kafka和Storm。 Storm需要一个zookeeper集群来协调nimbus和supervisor之间的协调。 Kafka需要zookeeper来存储有关群集状态和消费者抵消的信息。
zookeeper基本上提供了一个高度可用的文件系统,用户/应用程序可以读取/写入小数据。该数据可以是与通信或交易相关的事物。由于文件系统具有高可用性,因此通信将始终完成,并且不会进入部分或未知状态。 Zookeeper集群可以承受一定数量的故障,具体取决于分区的数量(比如N),它可以容忍N-1个故障。 有关详情,请参阅以下网址1 2 3
答案 1 :(得分:2)
Kafka致力于生产者/消费者的概念,其中生产者写入主题,消费者使用主题中的数据。每个使用者都可以使用该主题的任何可用分区中的数据。
主题的消费者也在ZooKeeper中注册,以便相互协调并平衡数据的消耗。
消费者跟踪他们在每个分区中消耗的最大偏移量。如果offsets.storage = zookeeper,则此值存储在ZooKeeper目录中。该值存储在ZooKeeper目录中。 / consumers / [group_id] / offsets / [topic] / [broker_id-partition_id] - > offset_counter_value((持久节点)。有关在Kafka中使用zookeeper的更多信息,请参阅kafka documentation