应用错误收集

pySpark：groupBy（）是否可以为每个组提供一个节点？

时间：2016-06-10 08:59:36

标签： apache-spark parallel-processing group-by pyspark pyspark-sql

我正在使用pySpark来计算每组矩阵。如果Spark在一个节点上存储任何给定组的行，看起来计算会更快，因此Spark可以在本地计算每个矩阵。我担心节点间合作可能需要更长时间。

map()和groupBy()通常能做到这一点吗？如果可能，我应该尝试将其指定为选项吗？

NB。矩阵包括在每个（已排序的）组内计算每行与前一行之间的距离。

2 个答案:

答案 0 :(得分：0)

默认情况下，Spark会这样做。

见这里：http://backtobazics.com/big-data/spark/apache-spark-groupby-example/

答案 1 :(得分：0)

我猜你要$users =User::where('user_email',$request->email)->first()->toArray();。然后，操作在每个分区中本地发生。