Question

我有批处理模式的Spark作业（使用数据集），它执行一些转换并将数据提取到NOSQL中。

我从其他来源获得数据，其结构与在批处理模式下收到的相似，尽管频率非常高（分钟）。我可以使用我用于流式传输的批处理模式的代码吗？

我试图避免使用2份代码来处理类似的结构。

Answer 1

您可以使用transform流媒体运营商（如the scaladoc中所述）：

transform[U](transformFunc: (RDD[T]) ⇒ RDD[U])(implicit arg0: ClassTag[U]): DStream[U]

返回一个新的DStream，其中每个RDD都是通过在'this'DStream的每个RDD上应用一个函数来生成的。