Spark交叉实现

时间:2018-03-06 18:19:52

标签: apache-spark pyspark

Spark如何实现交集方法?是否需要2个RDD才能在一台机器上进行共存?

来自here它说它使用哈希表,这有点奇怪,因为它可能无法扩展,并且对两个rdds进行排序然后逐项比较可能提供了更具伸缩性的解决方案。

欢迎任何关于这个主题的想法

1 个答案:

答案 0 :(得分:1)

它绝对不需要RDD在一台机器上进行共存。您可以查看code了解详细信息。看起来它使用的是cogroup。