在Scala和Spark中并行执行多个函数

时间:2017-07-12 10:05:18

标签: multithreading scala apache-spark parallel-processing

我对Scala很新,并且使用多个线程。如果我并行运行它,我想测试是否可以加快Spark DataFrames的填充速度。不幸的是,我找不到任何关于如何在并行线程中分配变量的好教程。

启动DataFrames

val first_df = stg_df.as('a).select($"a.attr1", $"a.attr2")
val second_df = stg_df.as('a).select($"a.attr3", $"a.attr4")

也许我可以利用的东西:

import scala.actors.Futures._
List("one", "two", "three", "four").foreach(name => future(println("Thread " + name + " says hi")))

1 个答案:

答案 0 :(得分:1)

Spark与常规Scala代码非常不同。它已经在您的集群中并行运行,您通常不应该自己创建线程。

使用Spark和并行时,坚持Spark特定的编程教程。