远程连接的慢速配置查询执行

时间:2018-03-27 14:42:13

标签: apache-spark hive apache-spark-sql

我希望你能帮助我解决我的问题。基本上我发现当我直接在边缘节点上执行它时以及在连接到远程Hive Metastore的本地机器上执行时,Hive查询(Spark SQL)执行时间存在显着差异。 当我执行以下查询时:

select max(column) from table

看起来,首先它将整个表提取到我的PC,然后执行MAX的查询执行。因为2分钟左右没有任何事情发生,然后它进入阶段阶段,这只需要2秒钟。当我在Web UI上查看并执行查询时,似乎2分钟内没有发生任何事情,然后查询在本地开始执行。

我想知道你是否可以建议Spark如何处理远程查询?这是我怀疑的方式,所以基本上它首先从表中获取所有数据,然后在本地执行查询?在我看来,这似乎是一个真正的瓶颈。

谢谢

汤姆

0 个答案:

没有答案