如何使用spark streaming解析来自kafka服务器的json数据?

时间:2016-08-17 16:22:05

标签: json apache-kafka spark-streaming

我设法将spark流连接到我的kafka服务器,其中我有json格式的数据。我想解析这些数据,以便使用函数groupby,如下所述:Can Apache Spark merge several similar lines into one line?

实际上,在此链接中,我们从文件中导入json数据,这显然更容易处理。我没有找到与kafka服务器相似的东西。

你有什么想法吗。

谢谢和问候

1 个答案:

答案 0 :(得分:1)

很难理解你所问的内容,因为我们无法在没有代码的情况下看到你现在的位置。也许这个一般指导就是你所需要的。

您的StreamingContext可以被赋予foreachRDD块,您将获得RDD。然后你可以sqlContext.read.json(inputRDD),你将拥有一个可以随意处理的DataFrame。