是什么导致Apache Flink作业中的障碍对齐时间长?

时间:2018-08-14 01:34:13

标签: apache-flink flink-streaming

我在YARN上运行Flink作业,我发现少数子任务遇到较长的对齐时间。

什么可能导致此问题?

1 个答案:

答案 0 :(得分:2)

对于一次语义,Flink在接收多个输入流的运算符处对齐流,因此,较大的对齐方式意味着任务管理器晚于其他节点接收某些障碍。

有关对齐的文档可以找到here,并且有一些方法可以monitor checkpointing

更具体地说,原因可能是:

  1. 数据偏斜。大多数数据已发送到大对齐持续时间节点。
  2. 垃圾收集:GC将极大地影响检查点的对齐方式。
  3. 长期的状态访问,即花费很长时间才能进入或退出状态。对于RocksDB,请检查是否存在索引丢失或缓存丢失问题。
  4. Network buffers problem
  5. 用户代码错误。例如,无限循环或其他问题。