Hive JDBC与CLI客户端

时间:2012-01-16 11:51:01

标签: jdbc hadoop command-line-interface hive

我需要以编程方式使用Hive访问数据(每个查询按GB顺序排列的数据)。我正在评估CLI驱动程序Vs Hive JDBC驱动程序。

当我们使用JDBC时,节省服务器和服务器的额外开销。我想知道这有多重。如果多个客户端连接到单个thrift服务器,它也可能是单点瓶颈吗?或者人们在Hadoop上配置多个thrift服务器并做一些负载平衡的事情是一种常见做法吗?

我正在寻找更好的性能,而不是更快的原型设计。 提前谢谢。

3 个答案:

答案 0 :(得分:1)

圣杰的链接不起作用 - 这可能是自动链接的:

http://blog.milford.io/2011/07/productionizing-the-hive-thrift-server/

答案 1 :(得分:0)

从性能的角度来看,是的,thrift服务器可能是瓶颈和SPF。我见过人们设置了多个与mysql metastore对话的thrift服务器。看看它有用的http://blog.milford.io/2011/07/productionizing-the-hive-thrift-server/.Hope

答案 2 :(得分:0)

您可以尝试使用连接池。我有一个类似的问题,而通过JDBC提交配置单元查询比hive cli花费更多的时间。

同样在你的连接字符串中提到了几个参数如下:

JDBC:hive2://服务器:PORTNO /; hive.execution.engine = TEZ; tez.queue.name = ALT; hive.exec.parallel = TRUE; hive.vectorized.execution.enabled = TRUE;配置单元。 vectorized.execution.reduce.enabled = TRUE;