如何提高Hive的速度

时间:2015-08-21 12:07:41

标签: hadoop hive hdfs

我从twitter收集数据并将其存储在hdfs上。我想根据时间戳对这些推文进行排序,但这个查询需要花费很多时间。

1.5 gb数据需要1分钟才能排序,我认为这远远超出预期。

可以采取哪些措施来加快此查询速度?

感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

你不能期望从Hive获得更快的东西。在我们的Prod集群中,涉及批处理作业的MapReduce DAG的查询的典型开销是20秒 - 并且具有精简和均值的JDBC连接;使用Hive CLI还有另外20个用于启动JVM并预热TEZ容器。

如果您需要关系DBMS的响应时间,请使用MySQL。或者也许是分布式的东西,比如免费版的MemSQL。