Flink-为什么在独立运行Flink超过1个月后通过“ flink run”提交作业时,Flink为什么会引发错误?

时间:2019-02-18 01:28:06

标签: apache-flink flink-streaming

我在1台主机(同一主机上的JobManager和TaskManager)上以独立模式运行Flink。首先,我能够正常提交和取消作业,这些作业显示在Web UI中并已运行。

但是,大约1个月后,当我取消旧工作并提交新工作时,我遇到了 org.apache.flink.client.program.ProgramInvocationException:无法检索执行结果。 < / p>

此刻,我能够运行 flink列表列出当前作业,并且 flink取消取消作业,但是 flink运行失败了引发异常,该作业现在显示在Web UI中。

当我尝试使用 stop-cluster 停止当前的独立群集时,它说“未找到群集”。然后,我必须找到flink进程的pid并手动停止它们。然后,如果我运行 start-cluster 创建一个新的独立群集,则可以正常提交作业。

缩短的堆栈跟踪:(google docs link处的完整堆栈跟踪) org.apache.flink.client.program.ProgramInvocationException: Could not retrieve the execution result. (JobID: 7ef1cbddb744cd5769297f4059f7c531) at org.apache.flink.client.program.rest.RestClusterClient.submitJob (RestClusterClient.java:261) Caused by: org.apache.flink.runtime.client.JobSubmissionException: Failed to submit JobGraph. Caused by: org.apache.flink.runtime.concurrent.FutureUtils$RetryException: Could not complete the operation. Number of retries has been exhausted. Caused by: java.util.concurrent.CompletionException: org.apache.flink.runtime.rest.ConnectionClosedException: Channel became inactive. Caused by: org.apache.flink.runtime.rest.ConnectionClosedException: Channel became inactive. ... 37 more

错误是一致的。它总是在我让Flink运行一段时间(通常超过1个月)后发生。为什么过一会儿我不能提交工作去换行?这里发生了什么事?

0 个答案:

没有答案