apache-spark - Spark RDD apend - Thinbug

Spark RDD apend

时间：2016-12-24 04:00:38

标签： apache-spark

在Spark中，我将数据集加载为RDD，并且不经常将流数据附加到它。我知道RDD是不可变的，因为它简化了锁定等。其他方法是将静态和流数据一起处理为一个吗？

以前曾提出过类似的问题： Spark : How to append to cached rdd?

1 个答案:

答案 0 :(得分：1)

查看http://spark.apache.org/streaming/。

使用spark streaming，您将获得一个数据结构，表示您可以迭代的RDD集合。它可以监听kafka队列，文件系统等，以查找要包含在下一个RDD中的新数据。

或者，如果您只是很少执行这些“追加”，则可以将两个RDD联合使用相同的模式以获得新的组合RDD。