我有一个生成文件的远程服务器。服务器每15分钟将文件推送到hadoop集群。这些文件存储在特定目录中。我们使用flume从本地目录中读取文件并将它们发送到HDFS。但是,SpoolDir适合处理数据。
当文件写入目录时,问题是水槽关闭处理
我不知道如何使flume spooldir wait
完整写入文件,然后处理它。
或者如何使用脚本shell或处理器阻止读取文件,直到它完整地写入。
有人可以帮助我!
答案 0 :(得分:0)
为假脱机源设置pollDelay属性。 假脱机目录源在给定目录中以特定间隔轮询新文件。 默认值为500毫秒。 这对于许多系统来说太快了,所以你应该相应地配置它。