如何使用flume将zip文件上传到hdfs sink

时间:2015-02-03 14:55:20

标签: flume flume-ng

我是flume的新手。我的水槽代理有源作为http服务器,从那里定期获取zip文件(压缩的xml文件)。这个zip文件非常小(小于10 mb)我想放提取到hdfs接收器中的zip文件。请分享一些如何做到这一点的想法。我必须去寻找一个自定义拦截器。

1 个答案:

答案 0 :(得分:2)

Flume会尝试逐行读取您的文件,除非您配置了特定的反序列化器。通过反序列化器,您可以控制文件的解析方式并将其拆分为事件。你当然可以按照专为PDF等设计的blob deserizalizer的例子,但我知道你实际上想要解压缩它们然后逐行读取它们。在这种情况下,您需要编写一个自定义反序列化器,它读取Zip并逐行写入事件。

以下是文档中的参考:

https://flume.apache.org/FlumeUserGuide.html#event-deserializers