Question

我尝试将群集中的flink版本升级到1.3.1（以及1.3.2），我的任务管理器中出现以下异常：

2018-02-28 12:57:27,120 ERROR org.apache.flink.streaming.runtime.tasks.StreamTask           - Error during disposal of stream operator.
org.apache.kafka.common.KafkaException: java.lang.InterruptedException
        at org.apache.kafka.clients.producer.KafkaProducer.close(KafkaProducer.java:424)
        at org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducerBase.close(FlinkKafkaProducerBase.java:317)
        at org.apache.flink.api.common.functions.util.FunctionUtils.closeFunction(FunctionUtils.java:43)
        at org.apache.flink.streaming.api.operators.AbstractUdfStreamOperator.dispose(AbstractUdfStreamOperator.java:126)
        at org.apache.flink.streaming.runtime.tasks.StreamTask.disposeAllOperators(StreamTask.java:429)
        at org.apache.flink.streaming.runtime.tasks.StreamTask.invoke(StreamTask.java:334)
        at org.apache.flink.runtime.taskmanager.Task.run(Task.java:702)
        at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.InterruptedException
        at java.lang.Object.wait(Native Method)
        at java.lang.Thread.join(Thread.java:1252)
        at java.lang.Thread.join(Thread.java:1326)
        at org.apache.kafka.clients.producer.KafkaProducer.close(KafkaProducer.java:422)
        ... 7 more

作业经理表明它无法与任务管理员联系。

我正在使用FlinkKafkaProducer08。有什么想法吗？

Answer 1

首先，从上面的堆栈跟踪：在操作员清理非正常终止时抛出它（否则不执行此代码）。它看起来好像应该跟着引起初始问题的真正异常。你能提供更多的日志部分吗？

如果JobManager无法连接到应该运行作业的任何TaskManager，则整个作业将被取消（并根据您的重试策略重试）。在TaskManager端也可能发生同样的情况。这可能是根本原因，需要进一步调查。

尝试升级到flink 1.3.1时出现异常

1 个答案: