我有一个HDFS目录,其中文件将从许多来源连续复制(流式传输)。
如何构建用于监视HDFS目录的拓扑,即每当在该目录中创建新文件时,都应该对其进行处理。
答案 0 :(得分:1)
您正在寻找监控HDFS文件/目录更改。
看看这个问题,它指出了Oozie和HBase的现有支持: How to know that a new data is been added to HDFS? 您可以将项目发送到拓扑中,以便在这些工具检测到新文件时进行处理。
或者您可以在风暴中编写自己的自定义逻辑,列出并检查是否定期在HDFS中添加新文件。查看Storm中的tick元组支持。