sql - Spark SQL查询优化技术

我最近被介绍给Spark-SQL，并试图把我的头缠住。我正在寻找用于优化Spark-SQL查询的最佳实践，技巧和窍门。最重要的是，我希望了解有关解释Spark SQL EXPLAIN 计划的信息。我在Spark SQL上在线搜索过书籍/文章，但没有任何内容。

任何人都可以帮助我并使我的方向正确。

由于Spark在结构上与传统RDBMS有所不同，因此有许多关系优化选项不适用于Spark（例如，利用索引等）。我找不到许多专门与Spark-SQL相关的资源。我希望了解最好的技巧/技术（例如，提示的用法，连接子句中表的顺序，即在连接条件的末尾保留最大的表等），以便为Spark-SQL编写高效的查询。

最重要的是，任何用于理解和利用Spark-SQL Explain Plans的资源都将是很棒的。但是，请注意，我只能访问Spark-SQL，但没有 PySpark SQL。

感谢您的帮助。

谢谢

Spark SQL查询优化技术

0 个答案: