应用错误收集

时间：2013-12-16 12:01:32

标签： hadoop hive flume

我的项目有要求。我必须使用水槽收集日志数据，并且必须将数据输入到hive表中。

这里我要求将文件夹中放置的文件收集到hdfs中，我正在使用spooldir。在此之后，我需要处理这些文件并将输出放在hive文件夹中，以便立即查询数据。

我是否可以使用接收器处理源文件，使得放置在hdfs中的数据已经处理成所需格式。？

谢谢， Sathish所在

答案 0 :(得分：0)

是的，您需要使用序列化程序（实现此类 - http://flume.apache.org/releases/content/1.2.0/apidocs/org/apache/flume/serialization/EventSerializer.html），将其放入plugin.d /中，然后将其添加到HDFS接收器的配置中。

答案 1 :(得分：0)

使用以下配置符合我的目的。

source.type = spooldir source.spooldir = $ {location}

答案 2 :(得分：0)

我实际上做了一些非常相似的事情，并决定分享我经历的旅程。希望你能在那里找到有用的东西。这是一个完整的示例，公开了所有细节，并且GitHub上也有代码