在Spark笛卡尔产品上洗牌

时间:2015-07-11 12:54:35

标签: join apache-spark cartesian-product cartesian

假设我有一个RDD X的问题,我计算单个工作节点中的平均值m然后我想计算X-m到例如计算stdevs。我希望这发生在集群中,而不是驱动程序节点,即我想要分发。我想把它作为这两个RDD的笛卡尔积来实现,所以基本上只要m计算,它就会传播给所有工人并计算X-m。我担心Spark会将X移动到m所居住的地方并在那里进行减法。在X.cartesian(m)的情况下,谁可以保证改组?

上面的平均/ stedev问题仅用于说明目的 - 我知道它不是很好,但它很简单。

0 个答案:

没有答案