Kafka InputDStream在spark streaming-Parallelism中重新分区

时间:2017-09-16 12:01:06

标签: java apache-spark apache-kafka spark-streaming

作为火花性能调整任务的一部分。 Spark 流应用程序(用Java编写)有来自kafka receiver- topic的输入,并将输出推送到其他 kafka 主题.Spark应用程序运行13个执行程序,3GB内存和4个vcores每个执行人。 Kafka主题是用13分区创建的,复制因子设置为1。火花流应用程序的必要性是接收消息并以每秒1500条消息的吞吐量处理它。但是,我发现并行性并没有发生在执行者层面。我的怀疑和需求是

  • 可以将来自主题的Kafka InputDstream(一批130条消息)重新分区(拆分)到每个执行程序(因此130条消息在13个执行程序(JVM)之间分配,即每个执行程序10条消息)?< / p>

  • 如果完全有可能,如何实现? api的任何参考或方法/类别?

  • 我的应用程序的瓶颈是所有13个执行者正在处理所有130条消息(没有发生并行性)

0 个答案:

没有答案