我正在经历Spark处理时间的突然飙升,然后永远变得不变。
处理时间的这种上升不是渐进的,而是突然的,在运行5-6批次之后从10秒到40-45秒,处理时间等于批处理窗口,即10秒,这是重复的方式。
批处理窗口时间为10秒,因此它实际上变为最大批处理时间的4倍。
我们拥有独立的火花群集管理器,其中包含14台计算机,每个计算机16个核心,即群集中的224个核心。
应用程序有25个执行程序,23 GB内存和3个内核,即总共75个内核。驱动程序有9个内核和23 Gb内存。应用程序从3个Kafka主题中读取数据,其中每个主题有16个分区。