蜂巢,黑斑羚和直线之间的区别

时间:2016-12-16 11:26:43

标签: hive impala beeline

我是Hadoop生态系统工具的新手。 任何人都可以帮助我理解蜂巢,直线和蜂巢之间的区别。

提前致谢!

2 个答案:

答案 0 :(得分:4)

Apache Hive:

1] Apache Hive是一个基于Hadoop平台构建的数据仓库基础架构,用于执行查询,分析,处理和可视化等数据密集型任务。 2] Hive在编译时生成查询表达式 3]每个Hive查询都有“冷启动”的问题 4] Hive将要执行的查询转换为涉及间接费用的MapReduce作业 5] Hive是一种更通用,多功能和可插拔的语言 6]对于升级项目,其兼容性和速度同样重要。 Hive是一个理想的选择。

Cloudera Impala:

1] Impala是程序员在HDFS和Apache HBase上运行查询的绝佳选择,因为它不需要移动或转换数据。
2] Impala使用llvm为“大循环”执行运行时代码生成 3] Impala避免了启动开销,因为守护进程本身在启动时启动,始终准备好处理查询 4] Impala通过大规模并行处理快速回复 5] Impala用于释放其强大的处理能力,并提供闪电般快速的分析结果 6] Impala是开始新项目时的理想选择。

直线:

1] Hive CLI直接连接到Hive驱动程序,并要求将Hive安装在与客户端相同的机器上。
2]但是,Beeline连接到HiveServer2,不需要在与客户端相同的机器上安装Hive库。
3] Beeline是一个瘦客户端,它也使用Hive JDBC驱动程序,而是通过HiveServer2执行查询,HiveServer2允许多个并发客户端连接并支持身份验证。
4] Cloudera的Sentry安全性正在通过HiveServer2而不是Hive CLI使用的HiveServer1。所以蜂巢虽然命令行不会遵循Setry的政策。根据cloudera文档,您不应该使用Hive CLI和WebHCat。请改用直线或黑斑羚 5] 使用Beeline连接: url是一个jdbc连接字符串,指向hiveServer2主机。
终端> 直线-u url -n username -p密码
终端> beeline
beeline> !connect jdbc:hive2:// HiveServer2Host:Port

答案 1 :(得分:2)

Cloudera Impala是Cloudera的开源大规模并行处理(MPP)SQL查询引擎。 Hortonworks和亚马逊不支持Impala。

Apache Hive是一个构建于Hadoop之上的数据仓库基础架构,用于提供数据汇总,查询和分析。所有Hadoop供应商都支持。

Beeline是一个Hive客户端。见这里:https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.4/bk_dataintegration/content/beeline-vs-hive-cli.html