应用错误收集

作为火花性能调整任务的一部分。 Spark 流应用程序（用Java编写）有来自kafka receiver- topic的输入，并将输出推送到其他 kafka 主题.Spark应用程序运行13个执行程序，3GB内存和4个vcores每个执行人。 Kafka主题是用13分区创建的，复制因子设置为1。火花流应用程序的必要性是接收消息并以每秒1500条消息的吞吐量处理它。但是，我发现并行性并没有发生在执行者层面。我的怀疑和需求是

可以将来自主题的Kafka InputDstream（一批130条消息）重新分区（拆分）到每个执行程序（因此130条消息在13个执行程序（JVM）之间分配，即每个执行程序10条消息）？< / p>
如果完全有可能，如何实现？ api的任何参考或方法/类别？
我的应用程序的瓶颈是所有13个执行者正在处理所有130条消息（没有发生并行性）

Kafka InputDStream在spark streaming-Parallelism中重新分区

0 个答案: