Spark执行器花费太多时间来处理spark kafka流中的零记录批量

时间:2017-05-11 10:35:09

标签: apache-spark apache-kafka spark-streaming

我在Yarn上部署了spark集群(Hadoop 2.7.1)。

配置 6数据节点 6节点管理器 每个都有12个vCores和48 GB的内存

Apache Kafka - 0.10.1.1 Apache Spark - 2.0.0

我的每个spark应用程序都使用spark kafka流式直接方法从kafka中获取数据。

我已经在上面的群集上部署了9个火花应用程序,配置如下。

2位遗嘱执行人 每个: 6 GB内存 4个CPU核心

当我部署所有9个应用程序时,每个应用程序的计划延迟为零记录。开始时,调度延迟增加1-2分钟。然后慢慢降到零。有时它会在spark-UI上显示零记录的处理时间为2-3分钟。

我无法弄清楚上述问题。

注意:我的spark kafka流式消费者间隔为每个应用程序1秒钟。(实时请求处理)

0 个答案:

没有答案