pySpark:groupBy()是否可以为每个组提供一个节点?

时间:2016-06-10 08:59:36

标签: apache-spark parallel-processing group-by pyspark pyspark-sql

我正在使用pySpark来计算每组矩阵。如果Spark在一个节点上存储任何给定组的行,看起来计算会更快,因此Spark可以在本地计算每个矩阵。我担心节点间合作可能需要更长时间。

map()groupBy()通常能做到这一点吗?如果可能,我应该尝试将其指定为选项吗?

NB。矩阵包括在每个(已排序的)组内计算每行与前一行之间的距离。

2 个答案:

答案 0 :(得分:0)

默认情况下,Spark会这样做。

见这里:http://backtobazics.com/big-data/spark/apache-spark-groupby-example/

答案 1 :(得分:0)

我猜你要$users =User::where('user_email',$request->email)->first()->toArray(); 。然后,操作在每个分区中本地发生。