使用水槽将数据记录到接收器所需的格式

时间:2013-12-16 12:01:32

标签: hadoop hive flume

我的项目有要求。我必须使用水槽收集日志数据,并且必须将数据输入到hive表中。

这里我要求将文件夹中放置的文件收集到hdfs中,我正在使用spooldir。 在此之后,我需要处理这些文件并将输出放在hive文件夹中,以便立即查询数据。

我是否可以使用接收器处理源文件,使得放置在hdfs中的数据已经处理成所需格式。?

谢谢, Sathish所在

3 个答案:

答案 0 :(得分:0)

是的,您需要使用序列化程序(实现此类 - http://flume.apache.org/releases/content/1.2.0/apidocs/org/apache/flume/serialization/EventSerializer.html),将其放入plugin.d /中,然后将其添加到HDFS接收器的配置中。

答案 1 :(得分:0)

使用以下配置符合我的目的。

source.type = spooldir source.spooldir = $ {location}

答案 2 :(得分:0)

我实际上做了一些非常相似的事情,并决定分享我经历的旅程。希望你能在那里找到有用的东西。这是一个完整的示例,公开了所有细节,并且GitHub上也有代码

http://www.lopakalogic.com/articles/hadoop-articles/log-files-flume-hive/