标签: hadoop mapreduce hive hdfs impala
为了从Hadoop访问数据,构建了多个工具。
其中非常受欢迎的是Hive和Impala。虽然Impala的构建是为了解决Hive的批处理性质(对于低成本的SQL),Impala不能完全消除MapReduce,因为它非常适合处理批处理数据。
对于低成本的SQL,Impala在跳过MapReduce作业时提供了极佳的性能。
究竟是什么原因导致Impala比Hive更快?它是在内存执行中吗?或者是对现有硬件(命名节点和数据节点)的有效和智能使用?