作为火花性能调整任务的一部分。 Spark 流应用程序(用Java编写)有来自kafka receiver- topic的输入,并将输出推送到其他 kafka 主题.Spark应用程序运行13个执行程序,3GB内存和4个vcores每个执行人。 Kafka主题是用13分区创建的,复制因子设置为1。火花流应用程序的必要性是接收消息并以每秒1500条消息的吞吐量处理它。但是,我发现并行性并没有发生在执行者层面。我的怀疑和需求是
可以将来自主题的Kafka InputDstream(一批130条消息)重新分区(拆分)到每个执行程序(因此130条消息在13个执行程序(JVM)之间分配,即每个执行程序10条消息)?< / p>
如果完全有可能,如何实现? api的任何参考或方法/类别?