我有批处理模式的Spark作业(使用数据集),它执行一些转换并将数据提取到NOSQL中。
我从其他来源获得数据,其结构与在批处理模式下收到的相似,尽管频率非常高(分钟)。我可以使用我用于流式传输的批处理模式的代码吗?
我试图避免使用2份代码来处理类似的结构。
答案 0 :(得分:0)
您可以使用transform
流媒体运营商(如the scaladoc中所述):
transform[U](transformFunc: (RDD[T]) ⇒ RDD[U])(implicit arg0: ClassTag[U]): DStream[U]
返回一个新的DStream,其中每个RDD都是通过在'this'DStream的每个RDD上应用一个函数来生成的。