我在AWS EC2上的七个m4.2xlarge Red Hat实例上部署了Hortonworkks数据平台(HDP2.4)。集群有Spark,我通过连接Tableau进行查询来使用Spark。我被问到查询速度,我不知道如何估计查询速度。我应该考虑哪些因素,或者是否有直接的方法来了解火花群的查询速度?
答案 0 :(得分:0)
我正在做同样的分析。渲染tableau报告时速度似乎很慢。因此,要分析查看将Tableau连接到Spark Cluster的日志所需的速度。
在我们的例子中,它是Thrift Server 2,日志位于:/var/log/spark/spark-root-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-<<ip>>.out
,您将在日志名称的末尾有一个IP地址。
查看日志后,您会看到INFO SparkExecuteStatementOperation: Running query
和查询。对仪表板执行的查询太多了。
你可以得到一个高层次的想法。如果要进行深入分析,请查看EMR群集详细信息页面中资源管理器中的Thrift Server阶段。在资源管理器中,您将能够看到用于查询的容器。
或者,您可以在Spark上查看并运行相同的查询,并查看它的执行情况。