Spark RDD apend

时间:2016-12-24 04:00:38

标签: apache-spark

在Spark中,我将数据集加载为RDD,并且不经常将流数据附加到它。我知道RDD是不可变的,因为它简化了锁定等。其他方法是将静态和流数据一起处理为一个吗?

以前曾提出过类似的问题: Spark : How to append to cached rdd?

1 个答案:

答案 0 :(得分:1)

查看http://spark.apache.org/streaming/

使用spark streaming,您将获得一个数据结构,表示您可以迭代的RDD集合。它可以监听kafka队列,文件系统等,以查找要包含在下一个RDD中的新数据。

或者,如果您只是很少执行这些“追加”,则可以将两个RDD联合使用相同的模式以获得新的组合RDD。