如何在hadoop集群中安装kafka

时间:2015-12-04 13:43:47

标签: hadoop apache-kafka

我想在我的ubuntu Hadoop集群上安装最新版本的Kafka,该集群包含1个主节点和4个数据节点。

以下是我的问题:

Should kafka be installed on all the machines or only on NameNode machine?

What about zookeeper? Should it be installed on all the machines or only  
on NameNode machine?

请分享所需文件,以便在Hadoop 5节点集群中安装kafka和Zookeeper

1 个答案:

答案 0 :(得分:1)

该体系结构严格基于您的要求和您拥有的内容:您的计算机有多强大,处理需要多少数据,Kafka实例需要提供多少消费者,等等。从理论上讲,你可以拥有1个kafka实例和1个zookeeper,但它不具备容错能力 - 如果失败,你就会丢失数据等等。

您可以找到有关zookeeper多群集here的更多信息。

我首先要做的是尝试分析

  • 他们需要处理多少数据,
  • 他们需要多少数据 “摄取”,
  • 你的机器有多强大,
  • 你有多少消费者 将需要,
  • 您的机器有多可靠

在开始构建基础架构之前,这些只是需要考虑的几个因素。如果你想根据“只”5台机器进行粗略估计,假设它们都具有同样强大的内存(例如每台机器32GB),那么你需要的是至少有几个Kafka Zookeeper(2N + 1)的节点和至少3台机器,这样如果一台机器发生故障,Zookeeper就可以处理这个故障。