我设法将spark流连接到我的kafka服务器,其中我有json格式的数据。我想解析这些数据,以便使用函数groupby,如下所述:Can Apache Spark merge several similar lines into one line?
实际上,在此链接中,我们从文件中导入json数据,这显然更容易处理。我没有找到与kafka服务器相似的东西。
你有什么想法吗。
谢谢和问候
答案 0 :(得分:1)
很难理解你所问的内容,因为我们无法在没有代码的情况下看到你现在的位置。也许这个一般指导就是你所需要的。
您的StreamingContext可以被赋予foreachRDD
块,您将获得RDD。然后你可以sqlContext.read.json(inputRDD)
,你将拥有一个可以随意处理的DataFrame。