我在HDFS中有源路径和目标路径。我们的UpStream将文件放在源路径中,我们检查源路径中添加的任何新文件(如果有的话) 我们从源路径复制到目标路径。
现在我们正在使用shell脚本。但我想在其间使用Kafka。我研究过它,发现只有HDFS接收器连接器。 HDFS没有源连接器。
我的问题是我们可以在这里使用卡夫卡吗?
答案 0 :(得分:0)
对于这个用例,我认为你不需要kafka。 有多种方法可以做到这一点,例如,您可以使用Zookeeper观察器界面,在观察事件中触发吸气剂,并以编程方式从您的程序中将副本发送到hadoop
作为替代方案,Hadoop 2.6引入了可用于此的DFSInotifyEventInputStream。您可以从HdfsAdmin获取它的实例,然后只需调用.take()或.poll()来获取所有事件,并根据您可以采取行动的事件