我在Yarn上部署了spark集群(Hadoop 2.7.1)。
配置 6数据节点 6节点管理器 每个都有12个vCores和48 GB的内存
Apache Kafka - 0.10.1.1 Apache Spark - 2.0.0
我的每个spark应用程序都使用spark kafka流式直接方法从kafka中获取数据。
我已经在上面的群集上部署了9个火花应用程序,配置如下。
2位遗嘱执行人 每个: 6 GB内存 4个CPU核心
当我部署所有9个应用程序时,每个应用程序的计划延迟为零记录。开始时,调度延迟增加1-2分钟。然后慢慢降到零。有时它会在spark-UI上显示零记录的处理时间为2-3分钟。
我无法弄清楚上述问题。
注意:我的spark kafka流式消费者间隔为每个应用程序1秒钟。(实时请求处理)