我正在使用pySpark来计算每组矩阵。如果Spark在一个节点上存储任何给定组的行,看起来计算会更快,因此Spark可以在本地计算每个矩阵。我担心节点间合作可能需要更长时间。
map()
和groupBy()
通常能做到这一点吗?如果可能,我应该尝试将其指定为选项吗?
NB。矩阵包括在每个(已排序的)组内计算每行与前一行之间的距离。
答案 0 :(得分:0)
默认情况下,Spark会这样做。
见这里:http://backtobazics.com/big-data/spark/apache-spark-groupby-example/
答案 1 :(得分:0)
我猜你要$users =User::where('user_email',$request->email)->first()->toArray();
。然后,操作在每个分区中本地发生。