hadoop - 用于在HDFS上查询数据的纯火花与火花SQL

我在hdfs集群上有（表格）数据，需要对它进行一些稍微复杂的查询。我希望将来可以与其他数据一起多次面对同样的情况。所以，问：

在实现此类任务时，选择使用位置（纯）Spark以及在何处使用Spark-SQL需要考虑哪些因素？

以下是我能想到的选择因素：

熟悉语言：就我而言，我更像是一个数据分析师而不是数据库人，所以这会让我使用spark：我更愿意考虑如何（有效地）在Java / Scala中实现数据选择而不是SQL。但这主要取决于查询。
序列化：我认为可以运行Spark-SQL查询而不将home-made-jar + dep发送给spark worker（？）。但是，返回的数据是原始的，应该在本地转换。
效率：我不知道两者之间有什么不同。

我知道这个问题对于SO来说可能过于笼统，但也许不是。那么，有更多知识的人能提供一些见解吗？