Spooldir源停止处理

时间:2017-06-08 12:44:34

标签: java hadoop hadoop2 flume flume-ng

我有一个生成文件的远程服务器。服务器每15分钟将文件推送到hadoop集群。这些文件存储在特定目录中。我们使用flume从本地目录中读取文件并将它们发送到HDFS。但是,SpoolDir适合处理数据。

当文件写入目录时,问题是水槽关闭处理 我不知道如何使flume spooldir wait完整写入文件,然后处理它。 或者如何使用脚本shell或处理器阻止读取文件,直到它完整地写入。

有人可以帮助我!

1 个答案:

答案 0 :(得分:0)

为假脱机源设置pollDelay属性。 假脱机目录源在给定目录中以特定间隔轮询新文件。 默认值为500毫秒。 这对于许多系统来说太快了,所以你应该相应地配置它。