通过Java JDBC连接Hive

时间:2015-02-27 08:00:38

标签: hadoop hive

这里有一个问题connect from java to Hive,但我的不同

我的hive在machine1上运行,我需要使用在machine2上运行的Java服务器传递一些查询。据我所知,Hive有一个JDBC接口,用于接收远程查询。我从这里获取了代码 - HiveServer2 Clients

我安装了文章中的依赖项:

  1. hive-jdbc * .jar
  2. 蜂房服务的* .jar
  3. libfb303-0.9.0.jar
  4. libthrift-0.9.0.jar
  5. 的log4j-1.2.16.jar
  6. SLF4J-API-1.6.1.jar
  7. SLF4J-log4j12-1.6.1.jar
  8. 共享记录-1.0.4.jar
  9. 但是我在编译时遇到 java.lang.NoClassDefFoundError 错误 完整错误:

    Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration
        at org.apache.hive.jdbc.HiveConnection.createBinaryTransport(HiveConnection.java:393)
        at org.apache.hive.jdbc.HiveConnection.openTransport(HiveConnection.java:187)
        at org.apache.hive.jdbc.HiveConnection.<init>(HiveConnection.java:163)
        at org.apache.hive.jdbc.HiveDriver.connect(HiveDriver.java:105)
        at java.sql.DriverManager.getConnection(DriverManager.java:571)
        at java.sql.DriverManager.getConnection(DriverManager.java:215)
        at com.bidstalk.tools.RawLogsQuerySystem.HiveJdbcClient.main(HiveJdbcClient.java:25)
    

    StackOverflow的另一个问题是建议在Maven中添加Hadoop API依赖项 - Hive Error

    我不明白为什么我需要hadoop API让客户端与Hive连接。 JDBC驱动程序不应该与底层查询系统无关吗?我只需要传递一些SQL查询?

    编辑: 我正在使用Cloudera(5.3.1),我想我需要添加CDH依赖项。 Cloudera实例正在运行hadoop 2.5.0和HiveServer2

    但服务器在机器1上。在机器上,代码至少应该编译,我应该只在运行时遇到问题!

6 个答案:

答案 0 :(得分:8)

如果你还没有解决这个问题,我已经试了一下。 我需要以下依赖项来编译和运行它:

libthrift-0.9.0-cdh5-2.jar
httpclient-4.2.5.jar
httpcore-4.2.5.jar
commons-logging-1.1.3.jar
hive-common.jar
slf4j-api-1.7.5.jar
hive-metastore.jar
hive-service.jar
hadoop-common.jar
hive-jdbc.jar
guava-11.0.2.jar

hive文档可能是针对旧版本/发行版编写的。

您的例外原因是缺少hadoop-common jar,其中包含org.apache.hadoop.conf.Configuration

希望这有帮助。

答案 1 :(得分:5)

尝试对hive 0.13使用hive-jdbc 1.2.1时出现相同的错误。 与其他答案中的长列表相比。现在我们使用这两个:

5

另一方面注意:您可能会得到&#39; 必填字段&#39; client_protocol&#39;没有设置!&#39;当使用最新的jdbc对旧的Hive。如果是这样,请将jdbc版本更改为1.1.0:

constexpr

答案 2 :(得分:3)

回答我自己的问题!

通过一些命中和试用,我在我的pom文件中添加了以下依赖项,从那时起,我就可以在CHD 5.3.1和5.2.1集群上运行代码。

<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-jdbc</artifactId>
    <version>0.13.1-cdh5.3.1</version>
</dependency>
<dependency>
    <groupId>org.apache.thrift</groupId>
    <artifactId>libthrift</artifactId>
    <version>0.9.0</version>
</dependency>
<dependency>
    <groupId>org.apache.thrift</groupId>
    <artifactId>libfb303</artifactId>
    <version>0.9.0</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-core</artifactId>
    <version>2.5.0-mr1-cdh5.3.1</version>
</dependency>

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>2.5.0-cdh5.3.1</version>
</dependency>
<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-exec</artifactId>
    <version>0.13.1-cdh5.3.1</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-hdfs</artifactId>
    <version>2.5.0-cdh5.3.1</version>
</dependency>
<dependency>

请注意,可能不需要其中一些依赖项

答案 3 :(得分:1)

其他人想知道使用java远程执行HIVE查询究竟需要什么...

Java代码

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.SQLException;
import java.sql.Statement;

public class Runner
{ 
        private static String driverName = "org.apache.hive.jdbc.HiveDriver";
        public static void main(String[] args) throws SQLException {

                try {
                        // Register driver and create driver instance
                        Class.forName(driverName);
                } catch (ClassNotFoundException ex) {
                      ex.printStackTrace();
                }

                // get connection
                System.out.println("before trying to connect");
                Connection con = DriverManager.getConnection("jdbc:hive2://[HOST IP]:10000/", "hive", "");
                System.out.println("connected");

                // create statement
                Statement stmt = con.createStatement();

                // execute statement
                stmt.executeQuery("show tables");

                con.close();
        }
}

与具有唯一必需依赖项的pom文件一起使用..

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>test-executor</groupId>
    <artifactId>test-executor</artifactId>
    <version>1.0-SNAPSHOT</version>
    <properties>
        <hadoop.version>2.5.2</hadoop.version>
    </properties>
<dependencies>
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-exec</artifactId>
        <version>1.2.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-jdbc</artifactId>
        <version>1.2.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>${hadoop.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>${hadoop.version}</version>
    </dependency>
</dependencies>
</project>

答案 4 :(得分:1)

我在CDH5.4.1版本遇到了同样的问题。我使用下面的代码更新了我的POM文件,它对我有用。

我的Hadoop版本为Hadoop 2.6.0-cdh5.4.1,Hive版本为Hive 1.1.0-cdh5.4.1

<dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-exec</artifactId>
        <version>0.13.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-jdbc</artifactId>
        <version>0.13.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.thrift</groupId>
        <artifactId>libthrift</artifactId>
        <version>0.9.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.thrift</groupId>
        <artifactId>libfb303</artifactId>
        <version>0.9.0</version>
    </dependency>
    <dependency>
        <groupId>commons-logging</groupId>
        <artifactId>commons-logging</artifactId>
        <version>1.1.3</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>2.6.0</version>
    </dependency>

我已经解决了这个POM更新。

答案 5 :(得分:0)

好像你们都在使用cloudera,我发现maven中的repo看起来很旧,因为如果你去他们的网站,你可以下载他们的jdbc。 https://www.cloudera.com/downloads/connectors/hive/jdbc/2-5-20.html 驱动程序似乎支持比蜂巢中的功能更多的功能。我注意到他们已经实现了addBatch。我只是希望他们在maven中拥有这些库。也许有人可以找到使用maven的地方。