应用错误收集

Flink存储桶接收器重新启动并保存点导致数据丢失

时间：2019-04-24 11:51:12

标签： apache hadoop hdfs apache-flink

我正在使用从Kafka到HDFS的Flink存储桶。 Flink的版本是1.4.2。

我发现每次重新启动作业都会丢失一些数据，即使保存点也是如此。

我发现，如果我设置编写器SequenceFile.CompressionType.RECORD而不是SequenceFile.CompressionType.BLOCK，则可以解决此问题。似乎当Flink尝试保存检查点时，有效长度与实际长度不同，实际长度应包含压缩数据。

但是如果由于磁盘使用情况而无法使用CompressionType.BLOCK，则可能会出现问题。重新启动作业时如何使用块压缩防止数据丢失？

这是Flink的已知问题吗？还是有人知道如何解决这个问题？

1 个答案:

答案 0 :(得分：1)

不再建议使用Flink的BucketingSink。相反，社区建议使用Flink StreamingFileSink引入的1.6.0。

Weka过滤器会导致数据丢失
Logstash导致数据丢失
Flink关闭挂钩以最大限度地减少数据丢失/重复
使用ParallelFlux进行接收会导致OOM
Flink使用变量作为数据接收器
Flink 1.6存储在.in-progress中的接收器HDFS文件
回收槽无法完成向s3的传输
我在flink中使用标准流执行timeWindow时数据丢失
时段接收器是否有可能在事件时间创建时段？
Flink存储桶接收器重新启动并保存点导致数据丢失

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？