我最近被介绍给Spark-SQL
,并试图把我的头缠住。我正在寻找用于优化Spark-SQL查询的最佳实践,技巧和窍门。
最重要的是,我希望了解有关解释Spark SQL
EXPLAIN 计划的信息。我在Spark SQL
上在线搜索过书籍/文章,但没有任何内容。
任何人都可以帮助我并使我的方向正确。
由于Spark在结构上与传统RDBMS有所不同,因此有许多关系优化选项不适用于Spark(例如,利用索引等)。
我找不到许多专门与Spark-SQL相关的资源。我希望了解最好的技巧/技术(例如,提示的用法,连接子句中表的顺序,即在连接条件的末尾保留最大的表等),以便为Spark-SQL
编写高效的查询。
最重要的是,任何用于理解和利用Spark-SQL
Explain Plans
的资源都将是很棒的。
但是,请注意,我只能访问Spark-SQL,但没有 PySpark SQL。
感谢您的帮助。
谢谢