我可以解释广播加入的工作原理,而本文则对此进行了很好的解释:https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-joins-broadcast.html
但是我没有找到一篇文章来解释shuffle哈希联接和排序合并联接的内部工作原理。
任何人都可以针对这2个算法给出逐步算法吗?
答案 0 :(得分:1)
这是一种很好的材料:
请注意,自Spark 3.2起,spark.sql.join.preferSortMergeJoin
的默认值已更改为true
。
答案 1 :(得分:1)
一个很好的链接,说明了广播哈希联接,随机哈希联接和排序合并联接
https://www.linkedin.com/pulse/spark-sql-3-common-joins-explained-ram-ghadiyaram
答案 2 :(得分:0)
对于简短的合并联接:这是一个很好的视频,介绍了算法: https://www.youtube.com/watch?v=jiWCPJtDE2c&t=97s