Apache Spark处理倾斜的数据-复合键

时间:2019-01-28 19:45:12

标签: scala apache-spark-sql skew

我有两个大桌子。我像这样在Spark sql中加入这两个表

select * from table1 A Join table2 B on(A.client=B.client,A.sitecode=B.sitecode,A.spec_nbr=B.spec_nbr).

表1的数据倾斜,使查询的运行时间更长。我想通过使用盐腌技术来避免数据偏斜。

在这种情况下,如何应用盐腌技术?

我找不到有关如何应用盐腌技术的任何相关材料。任何帮助表示赞赏。

1 个答案:

答案 0 :(得分:0)

您可以查看此答案以及此处的文章。可能是重复的。

https://stackoverflow.com/a/40376978/5723349