为什么我们在预先查询的运行时间中看到峰值?

时间:2019-03-15 18:18:01

标签: amazon-web-services amazon-s3 hive amazon-emr presto

我们正在尝试调试为什么我们的presto查询运行时间在一天中会有很大差异。我们看到一些明显的高峰,有些是在工作时间内,有些是在工作时间以外。我们正在使用EMR版本5.14和Presto版本0.194。我们的数据使用Hive创建的实木复合地板文件存储在S3中。下图显示了使用Presto CLI时同一查询的运行时间。对于我们应该关注的重点或可能导致这些峰值的原因的任何想法/建议,将不胜感激。谢谢!

enter image description here

1 个答案:

答案 0 :(得分:0)

将其发布,以防其他人遇到此问题。我们最终在hive.properties中禁用了蜂巢统计信息,从而提高了性能。