应用错误收集

我有一个与Spark流媒体相关的问题以及如何在Spark / Spark SQL中使用缓存。这是我的问题描述。

我从Kafka收到json消息，所以我想在最后3个小时的消息中维护一个RDD，这样任何时候在过去3小时内收到消息都应该附加到RDD（可能是某些缓存），我不知道），以便我可以逐步查询json消息，如下面的代码，并查看日志和

DataFrame dataFrame=sqlContext.read.json(rdd);
dataFrame.registerTempTable("test");
dataFrame.groupBy("field").count().show();

我知道我可以使用外部数据库并存储结果，并在我收到消息时附加到它，但如果我能够在不离开Spark的情况下执行此操作就是我正在搜索的内容。请建议。谢谢比尔。