如何在Spark Streaming中使用基于数据集的转换?

时间:2017-01-20 18:55:20

标签: apache-spark apache-spark-sql spark-streaming

我有批处理模式的Spark作业(使用数据集),它执行一些转换并将数据提取到NOSQL中。

我从其他来源获得数据,其结构与在批处理模式下收到的相似,尽管频率非常高(分钟)。我可以使用我用于流式传输的批处理模式的代码吗?

我试图避免使用2份代码来处理类似的结构。

1 个答案:

答案 0 :(得分:0)

您可以使用transform流媒体运营商(如the scaladoc中所述):

transform[U](transformFunc: (RDD[T]) ⇒ RDD[U])(implicit arg0: ClassTag[U]): DStream[U]
  

返回一个新的DStream,其中每个RDD都是通过在'this'DStream的每个RDD上应用一个函数来生成的。