场景 - 我有1个主题,其中2个分区具有不同的数据集集合,例如A,B.我知道dstream可以使用分区级别和主题级别的消息。 查询 - 我们可以为每个分区使用两个不同的流上下文,还是为整个主题使用单个流上下文,然后过滤分区级数据?我担心增加流上下文的性能。
答案 0 :(得分:0)
从文档中引用。
简化并行:无需创建多个输入Kafka流 并结合他们。使用directStream,Spark Streaming将创建尽可能多的内容 RDD分区,因为有Kafka分区要使用,这将是 所有人都从Kafka并行读取数据。所以有一对一的映射 在Kafka和RDD分区之间,这更容易理解和 调。
因此,如果您使用基于Direct Stream的Spark Streaming消费者,它应该处理并行性。