为apache Spark编写并行代码

时间:2014-10-30 15:59:53

标签: scala parallel-processing apache-spark

我是否应该遵循一套标准规则来确保为Spark编写的Scala代码能够并行运行?

我发现自己编写Spark代码,其中包括对map&等函数的调用。我认为filter将并行/分发。但实际上我并不知道如何测试这些函数是并行/分布式运行的。是否有可用于解释此问题的文本,特别是Spark,或可应用于Spark的通用文本?

这个问题的两个单独答案:How to transform Scala nested map operation to Scala Spark operation?。一个答案声称另一个答案并非并行运行。但我不确定为什么赞成一种实现而不是另一种实现。

1 个答案:

答案 0 :(得分:0)

保留RDD中的内容,即Map Reduce ReduceBy key groupby等。另外,如果你必须在rdd之外做一个foreach,请使用sc.parallelize,然后为每个执行。