使用具有多个输入和单个输出的kafka?

时间:2016-03-21 18:12:26

标签: hadoop apache-spark apache-kafka

如果您有多个信息流进入集中式节点,Kafka是否必要,但所有这些信息都需要在Hadoop或Spark中处理?因为不需要过滤不同类型的信息,看起来Kafka处理消息的能力似乎是多余的。

换句话说,如果你想要一个最多的系统,那么单个消费者的多个生产者会否定对卡夫卡的需求吗?

1 个答案:

答案 0 :(得分:1)

Kafka通常与Spark-Streaming应用程序一起使用。它与Spark-Streaming应用程序一起使用的原因是它可以保证在接收器发生故障时不会丢失数据。如果数据已经在hadoop集群中并且您正在运行带有spark的批处理作业,那么kafka就不需要与spark接口。