应用错误收集

Spark交叉实现

时间：2018-03-06 18:19:52

标签： apache-spark pyspark

Spark如何实现交集方法？是否需要2个RDD才能在一台机器上进行共存？

来自here它说它使用哈希表，这有点奇怪，因为它可能无法扩展，并且对两个rdds进行排序然后逐项比较可能提供了更具伸缩性的解决方案。

欢迎任何关于这个主题的想法

1 个答案:

答案 0 :(得分：1)

它绝对不需要RDD在一台机器上进行共存。您可以查看code了解详细信息。看起来它使用的是cogroup。