应用错误收集

如何提高Hive的速度

时间：2015-08-21 12:07:41

标签： hadoop hive hdfs

我从twitter收集数据并将其存储在hdfs上。我想根据时间戳对这些推文进行排序，但这个查询需要花费很多时间。

1.5 gb数据需要1分钟才能排序，我认为这远远超出预期。

可以采取哪些措施来加快此查询速度？

感谢您的帮助。

1 个答案:

答案 0 :(得分：0)

你不能期望从Hive获得更快的东西。在我们的Prod集群中，涉及批处理作业的MapReduce DAG的查询的典型开销是20秒 - 并且具有精简和均值的JDBC连接;使用Hive CLI还有另外20个用于启动JVM并预热TEZ容器。

如果您需要关系DBMS的响应时间，请使用MySQL。或者也许是分布式的东西，比如免费版的MemSQL。