Kafka Partition + Spark Streaming Context

时间:2018-05-03 12:53:26

标签: apache-spark apache-kafka spark-streaming

场景 - 我有1个主题,其中2个分区具有不同的数据集集合,例如A,B.我知道dstream可以使用分区级别和主题级别的消息。 查询 - 我们可以为每个分区使用两个不同的流上下文,还是为整个主题使用单个流上下文,然后过滤分区级数据?我担心增加流上下文的性能。

1 个答案:

答案 0 :(得分:0)

从文档中引用。

  

简化并行:无需创建多个输入Kafka流   并结合他们。使用directStream,Spark Streaming将创建尽可能多的内容   RDD分区,因为有Kafka分区要使用,这将是   所有人都从Kafka并行读取数据。所以有一对一的映射   在Kafka和RDD分区之间,这更容易理解和   调。

因此,如果您使用基于Direct Stream的Spark Streaming消费者,它应该处理并行性。