有没有办法使用Spark和没有Flume将流数据从Kafka加载到HDFS?

时间:2017-10-19 08:35:27

标签: apache-spark apache-kafka hdfs flume

我一直在寻找是否有办法使用火花流和不使用Flume将Kafka的流数据直接加载到HDFS中。 我已经尝试过使用Flume(Kafka源和HDFS接收器)。

提前致谢!

2 个答案:

答案 0 :(得分:0)

答案 1 :(得分:0)

这是Spark Streaming的一个非常基本的功能。根据您使用的spark和Kafka的版本,您可以查看您正在使用的版本的spark streaming kafka集成文档。保存到HDFS就像rdd.saveAsTextFile("hdfs:///directory/filename")一样简单。

Spark/Kafka integration guide for latest versions