限制速度的因素Presto?

时间:2014-01-27 21:06:10

标签: hive presto

我今天刚刚在我们的服务器上安装了Presto(版本0.57)以及从日志中执行选择计数(*);对于只有6.4亿条记录(~64GB)的表格,它需要超过17分钟。

现在我觉得这对于presto来说太慢了,但我不确定。

一些信息:

Hive和Presto都已安装了文档中的默认配置。

Hive表是一个外部表,大约有24列,其中大多数是String,其中3个是Array,文件存储为Textfile(由于某种原因Hive抱怨RCFile和我的文件)。

该表主要用于分组和计数操作。

对于表格的简单计数(*),您是否有任何提高性能的提示或目标查询时间应该是什么?

干杯

1 个答案:

答案 0 :(得分:1)

你应该用RCFile解决你的问题。使用RCFile会显着提高性能(开发人员说x2 - x4符合我的经验)。尝试在Presto中使用CREATE TABLE <new rcfile table name> AS SELECT * FROM <old textfile table name>;进行转换。 (确保磁盘上有足够的空间。)