通过HDFS Sink将带有水槽的事件写入S3以确保交易

时间:2016-03-22 15:47:09

标签: hadoop amazon-s3 hdfs flume sink

我们正在使用水槽和S3来存储我们的活动。 我发现每当HDFS接收器滚动到下一个文件或者水槽正常关闭时,事件才会传输到S3。

在我看来,这可能导致潜在的数据丢失。 Flume文档写道:

  

... Flume使用事务方法来保证可靠性   交付活动......

这里是我的配置:

agent.sinks.defaultSink.type = HDFSEventSink
agent.sinks.defaultSink.hdfs.fileType = DataStream
agent.sinks.defaultSink.channel = fileChannel
agent.sinks.defaultSink.serializer = avro_event
agent.sinks.defaultSink.serializer.compressionCodec = snappy
agent.sinks.defaultSink.hdfs.path = s3n://testS3Bucket/%Y/%m/%d
agent.sinks.defaultSink.hdfs.filePrefix = events
agent.sinks.defaultSink.hdfs.rollInterval = 3600
agent.sinks.defaultSink.hdfs.rollCount = 0
agent.sinks.defaultSink.hdfs.rollSize = 262144000
agent.sinks.defaultSink.hdfs.batchSize = 10000
agent.sinks.defaultSink.hdfs.useLocalTimeStamp = true

#### CHANNELS ####

agent.channels.fileChannel.type = file
agent.channels.fileChannel.capacity = 1000000
agent.channels.fileChannel.transactionCapacity = 10000

我认为我做错了什么,有什么想法吗?

1 个答案:

答案 0 :(得分:0)

经过一番调查后,我发现使用带有水槽的S3和HDFS接收器的主要问题之一。

普通HDFS和S3实现之间的主要区别之一是S3不直接支持重命名。在S3中重命名文件时,文件将被复制并复制到新名称,旧文件将被删除。 (见:How to rename files and folder in Amazon S3?

当文件未满时,Flume默认使用.tmp扩展文件。旋转后,文件将重命名为最终文件名。在HDFS中,这将没有问题,但在S3中,这可能会导致问题: https://issues.apache.org/jira/browse/FLUME-2445

因为带有HDFS接收器的S3不是100%值得信赖的,我更喜欢使用aws工具s3 sync(http://docs.aws.amazon.com/cli/latest/reference/s3/sync.html

更安全地保存所有本地文件并同步/删除已完成文件

在更糟糕的情况下,文件未同步或本地磁盘已满,但这两个问题都可以通过监控系统轻松解决,无论如何都应该使用。