Question

在下面的代码中，似乎是函数fn1＆amp;正如我在Spark Web UI的Stages部分中看到的那样，fn2以顺序方式应用于inRDD。

 DstreamRDD1.foreachRDD(new VoidFunction<JavaRDD<String>>()
 { 
     public void call(JavaRDD<String> inRDD)
        {
          inRDD.foreach(fn1)
          inRDD.foreach(fn2)
        }
 }

以这种方式运行流式传输作业时有何不同。以下函数是否在输入Dstream上并行运行？

DStreamRDD1.foreachRDD(fn1)
DStreamRDD2.foreachRDD(fn2)

Answer 1

foreach上的RDD和foreachRDD上的DStream都将按顺序运行，因为它们是输出转换，这意味着它们会导致实现图形。对于Spark中的任何常规延迟转换都不会出现这种情况，当执行图分为多个单独的阶段时，它可以并行运行。

例如：

dStream: DStream[String] = ???
val first = dStream.filter(x => x.contains("h"))
val second = dStream.filter(x => !x.contains("h"))

first.print()
second.print()

当您有足够的群集资源并行运行基础阶段时，第一部分不需要按顺序执行。然后，调用count，这又是一个输出转换，将导致print语句一个接一个地打印。

Spark DStream的foreachDD函数中的RDD并发转换

1 个答案: