与Spark - Joining 2 PairRDD elements
相关在pig中进行常规连接时,连接中的最后一个表不会被带入内存而是通过流式传输,因此如果A的每个键的基数小且B基数大,那么{{1}更好从性能角度(避免溢出和OOM)<} {而不是join A, B
火花中有类似的概念吗?我没有看到任何这样的推荐,并想知道它是如何可能的?实现在我看来几乎和猪一样:https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/CoGroupedRDD.scala
或者我错过了什么?
答案 0 :(得分:4)
它没有什么区别,在火花中,如果缓存RDD只会被带入内存。因此,在spark中实现相同的效果,您可以缓存较小的RDD。你可以用火花做的另一件事,我不确定那只猪,如果所有的RDD都加入了相同的分区,那么就不需要进行随机播放。