如何实现Apache风暴来监控HDFS目录

时间:2014-12-27 06:32:55

标签: hadoop hdfs apache-storm

我有一个HDFS目录,其中文件将从许多来源连续复制(流式传输)。

如何构建用于监视HDFS目录的拓扑,即每当在该目录中创建新文件时,都应该对其进行处理。

1 个答案:

答案 0 :(得分:1)

您正在寻找监控HDFS文件/目录更改。

看看这个问题,它指出了Oozie和HBase的现有支持: How to know that a new data is been added to HDFS? 您可以将项目发送到拓扑中,以便在这些工具检测到新文件时进行处理。

或者您可以在风暴中编写自己的自定义逻辑,列出并检查是否定期在HDFS中添加新文件。查看Storm中的tick元组支持。