应用错误收集

如何使用spark streaming解析来自kafka服务器的json数据？

时间：2016-08-17 16:22:05

标签： json apache-kafka spark-streaming

我设法将spark流连接到我的kafka服务器，其中我有json格式的数据。我想解析这些数据，以便使用函数groupby，如下所述：Can Apache Spark merge several similar lines into one line?

实际上，在此链接中，我们从文件中导入json数据，这显然更容易处理。我没有找到与kafka服务器相似的东西。

你有什么想法吗。

谢谢和问候

1 个答案:

答案 0 :(得分：1)

很难理解你所问的内容，因为我们无法在没有代码的情况下看到你现在的位置。也许这个一般指导就是你所需要的。

您的StreamingContext可以被赋予foreachRDD块，您将获得RDD。然后你可以sqlContext.read.json(inputRDD)，你将拥有一个可以随意处理的DataFrame。