我从twitter收集数据并将其存储在hdfs上。我想根据时间戳对这些推文进行排序,但这个查询需要花费很多时间。
1.5 gb数据需要1分钟才能排序,我认为这远远超出预期。
可以采取哪些措施来加快此查询速度?
感谢您的帮助。
答案 0 :(得分:0)
你不能期望从Hive获得更快的东西。在我们的Prod集群中,涉及批处理作业的MapReduce DAG的查询的典型开销是20秒 - 并且具有精简和均值的JDBC连接;使用Hive CLI还有另外20个用于启动JVM并预热TEZ容器。
如果您需要关系DBMS的响应时间,请使用MySQL。或者也许是分布式的东西,比如免费版的MemSQL。