pyspark播放或不播放

时间:2016-02-29 13:03:01

标签: apache-spark pyspark broadcast

我使用dotproduct实现了相同的功能broadcast,而没有使用

shared = [1, 2 , 3, 4, 5]
broadcasted = sc.broadcast(shared)

def dotproduct_shared(vector):
   return sum([v*w for v,w in zip(vector,shared)])

def dotproduct_broadcast(vector):
   return sum([v*w for v,w in zip(vector, broadcasted.value)])

他们都工作,

问题是:有什么区别?

我为什么要使用广播?

0 个答案:

没有答案