我试图了解Apache Flink仪表板显示的“接收/发送的字节数”的含义。在某些情况下,CSV文件托管在HDFS服务器上,我将结果写入本地计算机上的TXT文件中。 Flink也在我的计算机上本地运行。考虑到这一点,“已发送字节”似乎意味着“从HDFS服务器发送到我的计算机的字节”,“已接收字节”似乎意味着“从我的计算机发送到HDFS服务器的字节”。 这是正确的解释吗?
时间线显示的重叠任务也让我有些困惑。联接开始于前两个数据集的过滤完成之前,这似乎很奇怪。 这是预期的行为吗?如果是,为什么?
下面是我针对所发生情况的执行计划。
答案 0 :(得分:1)
Flink运算符的“已接收字节”是指传入数据,“已发送字节”是指传出数据。换句话说,您已经倒退了:数据源接收的字节是从HDFS接收的字节,从接收器发送的字节是写入TXT文件的字节。
但是,如in this answer所述,Flink不提供源的接收字节统计信息或接收器发送的字节统计,这就是为什么这些数字为零的原因。顺便说一句,有计划在将来的发行版中对此进行改进。
对于数据流管道中的重叠,并发计算-是的,这是Flink设计的重要功能,它可以支持连续的流数据流。在执行批处理工作负载时,这不是必需的,但不会造成伤害。