我有一个与Spark流媒体相关的问题以及如何在Spark / Spark SQL中使用缓存。这是我的问题描述。
我从Kafka收到json消息,所以我想在最后3个小时的消息中维护一个RDD,这样任何时候在过去3小时内收到消息都应该附加到RDD(可能是某些缓存) ,我不知道),以便我可以逐步查询json消息,如下面的代码,并查看日志和
DataFrame dataFrame=sqlContext.read.json(rdd);
dataFrame.registerTempTable("test");
dataFrame.groupBy("field").count().show();
我知道我可以使用外部数据库并存储结果,并在我收到消息时附加到它,但如果我能够在不离开Spark的情况下执行此操作就是我正在搜索的内容。请建议。 谢谢 比尔。