使用spark streaming

时间:2018-02-16 07:16:20

标签: apache-spark apache-kafka hdfs spark-streaming

我正在使用spark streaming进行分析。经过分析,我必须在hdfs中保存kafka消息。每个kafka消息都是一个xml文件。我无法使用rdd.saveAsTextFile因为它会保存整个rdd。 rdd的每个元素都是kafka message(xml文件)。如何使用spark保存hdfs中的每个rdd元素(文件)。

1 个答案:

答案 0 :(得分:2)

我会采取不同的方式。将转换后的数据流回 Kafka,然后使用HDFS connector进行Kafka Connect将数据流式传输到HDFS。 Kafka Connect是Apache Kafka的一部分。 HDFS连接器是开源的,可用standaloneConfluent Platform的一部分。

这样做可以将处理与将数据写入HDFS分离,从而使管理,故障排除,扩展更容易。