标签: scala apache-spark-sql skew
我有两个大桌子。我像这样在Spark sql中加入这两个表
select * from table1 A Join table2 B on(A.client=B.client,A.sitecode=B.sitecode,A.spec_nbr=B.spec_nbr).
表1的数据倾斜,使查询的运行时间更长。我想通过使用盐腌技术来避免数据偏斜。
在这种情况下,如何应用盐腌技术?
我找不到有关如何应用盐腌技术的任何相关材料。任何帮助表示赞赏。
答案 0 :(得分:0)
您可以查看此答案以及此处的文章。可能是重复的。
https://stackoverflow.com/a/40376978/5723349