我对Scala很新,并且使用多个线程。如果我并行运行它,我想测试是否可以加快Spark DataFrames的填充速度。不幸的是,我找不到任何关于如何在并行线程中分配变量的好教程。
启动DataFrames
val first_df = stg_df.as('a).select($"a.attr1", $"a.attr2")
val second_df = stg_df.as('a).select($"a.attr3", $"a.attr4")
也许我可以利用的东西:
import scala.actors.Futures._
List("one", "two", "three", "four").foreach(name => future(println("Thread " + name + " says hi")))
答案 0 :(得分:1)
Spark与常规Scala代码非常不同。它已经在您的集群中并行运行,您通常不应该自己创建线程。
使用Spark和并行时,坚持Spark特定的编程教程。