Question

我对Scala很新，并且使用多个线程。如果我并行运行它，我想测试是否可以加快Spark DataFrames的填充速度。不幸的是，我找不到任何关于如何在并行线程中分配变量的好教程。

启动DataFrames

val first_df = stg_df.as('a).select($"a.attr1", $"a.attr2")
val second_df = stg_df.as('a).select($"a.attr3", $"a.attr4")

也许我可以利用的东西：

import scala.actors.Futures._
List("one", "two", "three", "four").foreach(name => future(println("Thread " + name + " says hi")))

Answer 1

Spark与常规Scala代码非常不同。它已经在您的集群中并行运行，您通常不应该自己创建线程。

使用Spark和并行时，坚持Spark特定的编程教程。