据我所知,Spark可以使用Spark Streaming分析流。 Kafka可以从多个来源接收数据。 我不明白的是,如果我有一个Kafka集群从多个源接收数据,那么数据是否会在运行Spark Streaming的情况下发送到数据库?或者Spark Streaming是否在应用程序服务器上运行?
答案 0 :(得分:1)
如果使用Spark Streaming,则需要设置Spark群集,然后将Spark Streaming作业提交给群集。因此,您将需要2个集群:Kafka + Spark(实际上是3,因为您还需要Kafka的Zookeeper集群)。