应用错误收集

我希望你能帮助我解决我的问题。基本上我发现当我直接在边缘节点上执行它时以及在连接到远程Hive Metastore的本地机器上执行时，Hive查询（Spark SQL）执行时间存在显着差异。当我执行以下查询时：

select max(column) from table

看起来，首先它将整个表提取到我的PC，然后执行MAX的查询执行。因为2分钟左右没有任何事情发生，然后它进入阶段阶段，这只需要2秒钟。当我在Web UI上查看并执行查询时，似乎2分钟内没有发生任何事情，然后查询在本地开始执行。

我想知道你是否可以建议Spark如何处理远程查询？这是我怀疑的方式，所以基本上它首先从表中获取所有数据，然后在本地执行查询？在我看来，这似乎是一个真正的瓶颈。

谢谢

汤姆