jdbc - Hive JDBC与CLI客户端

Hive JDBC与CLI客户端

时间：2012-01-16 11:51:01

标签： jdbc hadoop command-line-interface hive

我需要以编程方式使用Hive访问数据（每个查询按GB顺序排列的数据）。我正在评估CLI驱动程序Vs Hive JDBC驱动程序。

当我们使用JDBC时，节省服务器和服务器的额外开销。我想知道这有多重。如果多个客户端连接到单个thrift服务器，它也可能是单点瓶颈吗？或者人们在Hadoop上配置多个thrift服务器并做一些负载平衡的事情是一种常见做法吗？

我正在寻找更好的性能，而不是更快的原型设计。提前谢谢。

3 个答案:

答案 0 :(得分：1)

圣杰的链接不起作用 - 这可能是自动链接的：

http://blog.milford.io/2011/07/productionizing-the-hive-thrift-server/

答案 1 :(得分：0)

从性能的角度来看，是的，thrift服务器可能是瓶颈和SPF。我见过人们设置了多个与mysql metastore对话的thrift服务器。看看它有用的http://blog.milford.io/2011/07/productionizing-the-hive-thrift-server/.Hope。

答案 2 :(得分：0)

您可以尝试使用连接池。我有一个类似的问题，而通过JDBC提交配置单元查询比hive cli花费更多的时间。

同样在你的连接字符串中提到了几个参数如下：

JDBC：hive2：//服务器：PORTNO /; hive.execution.engine = TEZ; tez.queue.name = ALT; hive.exec.parallel = TRUE; hive.vectorized.execution.enabled = TRUE;配置单元。 vectorized.execution.reduce.enabled = TRUE;