我一直在寻找是否有办法使用火花流和不使用Flume将Kafka的流数据直接加载到HDFS中。 我已经尝试过使用Flume(Kafka源和HDFS接收器)。
提前致谢!
答案 0 :(得分:0)
答案 1 :(得分:0)
这是Spark Streaming的一个非常基本的功能。根据您使用的spark和Kafka的版本,您可以查看您正在使用的版本的spark streaming kafka集成文档。保存到HDFS就像rdd.saveAsTextFile("hdfs:///directory/filename")
一样简单。