Flume使用hdfs sink。如何在hdfs不可用时确保数据完整性?

时间:2016-06-12 08:00:05

标签: apache-kafka flume

当hdfs不可用时,有没有办法确保数据安全?场景是:kafka-source,flume memory-channel,hdfs-sink。如果水槽服务停止,它可以存储主题分区的偏移并在恢复后从正确的位置消耗怎么办?

1 个答案:

答案 0 :(得分:0)

通常(使用默认配置),kafka会为所有使用者存储主题偏移。如果您使用相同的组ID(消费者属性之一)启动水槽源,kafka将开始直接从您的源的偏移量发送消息。但是,由于HDFS接收器故障,已经从kafka读取并存储在内存通道中的消息将丢失。