Question

我有两个大桌子。我像这样在Spark sql中加入这两个表

select * from table1 A Join table2 B on(A.client=B.client,A.sitecode=B.sitecode,A.spec_nbr=B.spec_nbr).

表1的数据倾斜，使查询的运行时间更长。我想通过使用盐腌技术来避免数据偏斜。

在这种情况下，如何应用盐腌技术？

我找不到有关如何应用盐腌技术的任何相关材料。任何帮助表示赞赏。

Answer 1

您可以查看此答案以及此处的文章。可能是重复的。