Spark SQL查询优化技术

时间:2020-05-31 19:06:58

标签: sql apache-spark apache-spark-sql sqlperformance

我最近被介绍给Spark-SQL,并试图把我的头缠住。我正在寻找用于优化Spark-SQL查询的最佳实践,技巧和窍门。 最重要的是,我希望了解有关解释Spark SQL EXPLAIN 计划的信息。我在Spark SQL上在线搜索过书籍/文章,但没有任何内容。

任何人都可以帮助我并使我的方向正确。

由于Spark在结构上与传统RDBMS有所不同,因此有许多关系优化选项不适用于Spark(例如,利用索引等)。 我找不到许多专门与Spark-SQL相关的资源。我希望了解最好的技巧/技术(例如,提示的用法,连接子句中表的顺序,即在连接条件的末尾保留最大的表等),以便为Spark-SQL编写高效的查询。

最重要的是,任何用于理解和利用Spark-SQL Explain Plans的资源都将是很棒的。 但是,请注意,我只能访问Spark-SQL,但没有 PySpark SQL。

感谢您的帮助。

谢谢

0 个答案:

没有答案