我是否应该遵循一套标准规则来确保为Spark编写的Scala代码能够并行运行?
我发现自己编写Spark代码,其中包括对map
&等函数的调用。我认为filter
将并行/分发。但实际上我并不知道如何测试这些函数是并行/分布式运行的。是否有可用于解释此问题的文本,特别是Spark,或可应用于Spark的通用文本?
这个问题的两个单独答案:How to transform Scala nested map operation to Scala Spark operation?。一个答案声称另一个答案并非并行运行。但我不确定为什么赞成一种实现而不是另一种实现。
答案 0 :(得分:0)
保留RDD中的内容,即Map Reduce ReduceBy key groupby等。另外,如果你必须在rdd之外做一个foreach,请使用sc.parallelize,然后为每个执行。