我是一名开发人员,最近被选入一个需要使用Spark-SQL的团队。即使我来自sql背景(Teradata / Oracle / SQL Server),我还是Spark-SQL的新手。我的职责是调整Spark-SQL查询。因此,我正在寻找以下主题的在线资源:-
1) Spark-SQL architecture (Types of Joins etc)
2) Performance tuning by interpreting Explain plans
3) Spark-SQL Hints
有人可以给我指出有关上述主题的任何课程材料/书吗?我已经在网上搜索过,但没有找到任何具体的信息。
除上述内容外,我还对以下Spark-SQL子句有一些疑问:-
1) Distribute By
2) Cluster By
3) Lateral View
4) Repeat
请问一些例子。
谢谢