标签: apache-spark pyspark
Spark如何实现交集方法?是否需要2个RDD才能在一台机器上进行共存?
来自here它说它使用哈希表,这有点奇怪,因为它可能无法扩展,并且对两个rdds进行排序然后逐项比较可能提供了更具伸缩性的解决方案。
欢迎任何关于这个主题的想法
答案 0 :(得分:1)
它绝对不需要RDD在一台机器上进行共存。您可以查看code了解详细信息。看起来它使用的是cogroup。