我今天刚刚在我们的服务器上安装了Presto(版本0.57)以及从日志中执行选择计数(*);对于只有6.4亿条记录(~64GB)的表格,它需要超过17分钟。
现在我觉得这对于presto来说太慢了,但我不确定。
一些信息:
Hive和Presto都已安装了文档中的默认配置。
Hive表是一个外部表,大约有24列,其中大多数是String,其中3个是Array,文件存储为Textfile(由于某种原因Hive抱怨RCFile和我的文件)。
该表主要用于分组和计数操作。
对于表格的简单计数(*),您是否有任何提高性能的提示或目标查询时间应该是什么?
干杯
答案 0 :(得分:1)
你应该用RCFile解决你的问题。使用RCFile会显着提高性能(开发人员说x2 - x4符合我的经验)。尝试在Presto中使用CREATE TABLE <new rcfile table name> AS SELECT * FROM <old textfile table name>;
进行转换。 (确保磁盘上有足够的空间。)