我有一个使用Kafka作为源和接收器的长期结构化流任务。批处理通常在一秒钟内完成,但有时可能会超过20秒。我还没有确定确切的模式,但是我非常有信心这种情况会在闲置一段时间后发生,并且错误的根源是生产者。如果延迟超过默认的request.timeout.ms设置,则会出现以下错误。有谁知道为什么会出现延迟以及可能的解决方案?
18/11/07 10:45:54错误实用工具:正在中止任务 org.apache.kafka.common.errors.NetworkException:服务器在收到响应之前已断开连接。
18/11/07 10:45:54 INFO TaskSetManager:在本地主机(执行器驱动程序)(15/16)上的30561 ms中完成了阶段209.0(TID 1783)中的任务14.0
18/11/07 10:45:54错误DataWritingSparkTask:分区10的写入器正在中止。
07/11/18 10:45:54错误DataWritingSparkTask:分区10的写入器异常终止。
18/11/07 10:45:54错误执行程序:阶段209.0(TID 1779)中的任务10.0中发生异常 org.apache.kafka.common.errors.NetworkException:服务器在收到响应之前已断开连接。
18/11/07 10:45:54警告TaskSetManager:在阶段209.0中丢失任务10.0(TID 1779,本地主机,执行程序驱动程序):org.apache.kafka.common.errors.NetworkException:服务器在响应之前已断开连接已收到。
18/11/07 10:45:54错误TaskSetManager:阶段209.0中的任务10失败1次;正在中止工作
18/11/07 10:45:54信息TaskSchedulerImpl:从池中删除了任务已全部完成的TaskSet 209.0
07/11/18 10:45:54 INFO TaskSchedulerImpl:取消阶段209
18/11/07 10:45:54信息DAScheduler:ResultStage 209(从KafkaUtils.scala:33开始)在30.820 s内由于阶段失败而因作业中止而失败:阶段209.0中的任务10失败了1次,多数最近的失败:在阶段209.0中丢失任务10.0(TID 1779,本地主机,执行程序驱动程序):org.apache.kafka.common.errors.NetworkException:服务器在收到响应之前已断开连接。 驱动程序堆栈跟踪:
07/11/07 10:45:54信息DAScheduler:作业208失败:从KafkaUtils.scala:33开始,花了30.854647 s