标签: hadoop hdfs apache-kafka
当数据最终写入HDFS时,Kafka通常用于摄取管道。是否存在使用Kafka将数据从HDFS传输到外部系统的设计?我知道Kafka更适合作为消息系统,但是我们可以使用Kafka的发布 - 订阅来传输数据吗?在这个用例中,生产者将从HDFS(一次1行)中写入数据到主题,消费者将异步读取。
在实施此类数据,安全性等方面可能存在挑战。
我知道其他方法,例如sqoop,distcp等。
答案 0 :(得分:1)
您应该能够使用Mapreduce或您选择的任何框架来实现此功能。我想像Apache Nifi这样的东西可以开箱即用,但没有尝试过这个方向。