应用错误收集

为apache Spark编写并行代码

时间：2014-10-30 15:59:53

标签： scala parallel-processing apache-spark

我是否应该遵循一套标准规则来确保为Spark编写的Scala代码能够并行运行？

我发现自己编写Spark代码，其中包括对map＆amp;等函数的调用。我认为filter将并行/分发。但实际上我并不知道如何测试这些函数是并行/分布式运行的。是否有可用于解释此问题的文本，特别是Spark，或可应用于Spark的通用文本？

这个问题的两个单独答案：How to transform Scala nested map operation to Scala Spark operation?。一个答案声称另一个答案并非并行运行。但我不确定为什么赞成一种实现而不是另一种实现。

1 个答案:

答案 0 :(得分：0)

保留RDD中的内容，即Map Reduce ReduceBy key groupby等。另外，如果你必须在rdd之外做一个foreach，请使用sc.parallelize，然后为每个执行。