从Spark Streaming中的Kafka主题中读取XML消息

时间:2017-10-30 17:48:27

标签: scala spark-dataframe spark-streaming apache-spark-2.0

我需要使用来自Kafka主题的XML消息,并在流式传输中加载到foreachRDD块中的Spark Dataframe。我怎样才能做到这一点?我可以通过spark.sqlContext.read.json(rdd)在流媒体作业中使用JSON消息;从Kafka读取XML格式消息的类似代码是什么?我使用Spark 2.2,Scala 2.11.8和Kafka 0.10

我的XML消息将有大约400个字段(严重嵌套),因此我想将它们动态存储在stream.foreachRDD { rdd => ... }块中的DF中,然后对DF进行操作。

在发送到生产者端的主题之前,我还应该将XML转换为JSON或Avro吗?发送XML是否很重要并且发送JSON会更好吗?

0 个答案:

没有答案