在Spark中,我将数据集加载为RDD,并且不经常将流数据附加到它。我知道RDD是不可变的,因为它简化了锁定等。其他方法是将静态和流数据一起处理为一个吗?
以前曾提出过类似的问题: Spark : How to append to cached rdd?
答案 0 :(得分:1)
查看http://spark.apache.org/streaming/。
使用spark streaming,您将获得一个数据结构,表示您可以迭代的RDD集合。它可以监听kafka队列,文件系统等,以查找要包含在下一个RDD中的新数据。
或者,如果您只是很少执行这些“追加”,则可以将两个RDD联合使用相同的模式以获得新的组合RDD。