应用错误收集

Kafka Partition + Spark Streaming Context

时间：2018-05-03 12:53:26

标签： apache-spark apache-kafka spark-streaming

场景 - 我有1个主题，其中2个分区具有不同的数据集集合，例如A，B.我知道dstream可以使用分区级别和主题级别的消息。查询 - 我们可以为每个分区使用两个不同的流上下文，还是为整个主题使用单个流上下文，然后过滤分区级数据？我担心增加流上下文的性能。

1 个答案:

答案 0 :(得分：0)

从文档中引用。

简化并行：无需创建多个输入Kafka流并结合他们。使用directStream，Spark Streaming将创建尽可能多的内容 RDD分区，因为有Kafka分区要使用，这将是所有人都从Kafka并行读取数据。所以有一对一的映射在Kafka和RDD分区之间，这更容易理解和调。

因此，如果您使用基于Direct Stream的Spark Streaming消费者，它应该处理并行性。