从java程序中的hive2 json-serde表中获取数据时出现异常

时间:2016-01-04 07:45:29

标签: java json hadoop hive

我正在使用https://github.com/rcongiu/Hive-JSON-Serde这个json serde。 我在将json serde jar添加到控制台后执行查询,它会将数据返回给我。我试图用java代码做同样的事情,但它没有发生。

hive> use oracle_json;
OK
Time taken: 0.858 seconds

hive> add jar json-serde-1.3.6-jar-with-dependencies.jar;

Added json-serde-1.3.6-jar-with-dependencies.jar to class path
Added resource: json-serde-1.3.6-jar-with-dependencies.jar

hive> select * from oracle_trading limit 1;
OK
[{"close_date":"2015-08-09 16:59:37.000000000","instrument_type":"Options","units":95000.0,"created_date":"2011-05-03 16:59:37.000000000","empid":10776,"instrument":"Instrument442","id":442,"open_date":null,"customer_id":870,"indexname":"FTSE","currency":null,"empsal":null}]

我正在尝试编写一个从hive表中获取数据的程序。 数据采用json serde格式。从json serde表中获取数据时出现异常。 特别是我不知道如何对来自hive2服务器的数据进行反序列化,也不知道如何通过java代码使用这个json serde jar。你可以帮我做同样的事。

        package com.db.hive;
        import java.sql.Connection;
        import java.sql.DriverManager;
        import java.sql.ResultSet;
        import java.sql.SQLException;
        import java.sql.Statement;
        import org.openx.data.jsonserde.JsonSerDe;
    /*This jsonSerDe library I have added to POM file BUT do not know how to use
 while executing the executeQuery() method
      */  
        public class HiveTableExample {

            private static String driverName = "org.apache.hive.jdbc.HiveDriver";
            final static String url = "jdbc:hive2://xxxx:10000/oracle_json";
            final static String user_name = "xxxx";
            final static String pwd = "xxxxx";
            private static JsonSerDe de = null;

            public static void main(String[] args) throws SQLException {
                try {
                    Class.forName(driverName);
                } catch (ClassNotFoundException e) {
                    System.exit(1);
                }
                Connection con = DriverManager.getConnection(url, user_name, pwd);
                Statement stmt = con.createStatement();

                String sql = "select * from oracle_trading limit 10";
                System.out.println("Running: " + sql);
                ResultSet res = stmt.executeQuery(sql);              

                while (res.next()) {
                    System.out.println(String.valueOf(res.getString(1)) + "\t" + res.getString(2));
                }
            }
        }

我得到例外,如下所示。 ... ...

Running: select * from oracle_trading limit 10
Exception in thread "main" org.apache.hive.service.cli.HiveSQLException: Error while compiling statement: FAILED: RuntimeException MetaException(message:java.lang.ClassNotFoundException Class org.openx.data.jsonserde.JsonSerDe not found)
    at org.apache.hive.jdbc.Utils.verifySuccess(Utils.java:231)
    at org.apache.hive.jdbc.Utils.verifySuccessWithInfo(Utils.java:217)
    at org.apache.hive.jdbc.HiveStatement.execute(HiveStatement.java:254)
    at org.apache.hive.jdbc.HiveStatement.executeQuery(HiveStatement.java:392)
    at com.db.hive.HiveTableExample.main(HiveTableExample.java:42)

我的POM文件

  <?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.db.hive</groupId>
    <artifactId>HiveQuery</artifactId>
    <version>1.0-SNAPSHOT</version>
    <packaging>jar</packaging>
    <build> 
        <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.3</version>
                <configuration>
                    <source>1.7</source>
                    <target>1.7</target>
                </configuration>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>2.4.1</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
                <configuration>
                    <archive>
                        <manifest>
                            <addClasspath>true</addClasspath>
                            <mainClass>com.db.hive.HiveTableExample</mainClass>
                        </manifest>
                    </archive> 
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
            </plugin> 

        </plugins>
    </build>

    <dependencies>
        <dependency>
            <groupId>org.openx.data</groupId> 
            <artifactId>json-serde</artifactId> 
            <version>1.3.6-SNAPSHOT-jar-with-dependencies</version> 
            <scope>system</scope>
            <systemPath>C:\Users\mahendra.pansare\Documents\NetBeansProjects\HiveQuery\src\main\resources\json-serde-1.3.6-SNAPSHOT-jar-with-dependencies.jar</systemPath>
        </dependency> 
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-jdbc</artifactId>
            <version>1.1.0</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.4</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-core</artifactId>
            <version>1.2.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.0</version>
        </dependency>



    </dependencies>


</project>

1 个答案:

答案 0 :(得分:2)

要回答这个问题,我首先要解释一下serde的工作原理。 SerDe是一种向hive添加新功能的方法,提供了一个可扩展的接口,可以插入数据格式,如JSON。

作为hive的扩展,serde的代码必须可用于集群中的所有节点。 使用hive shell时,可以通过将serde放入EXTRA_LIBS目录或告诉脚本ADD JAR serde.jar来实现。 hive shell为您做的是实际接受serde并在每次运行查询时将其发送到所有节点。

现在,至于你的问题。您没有使用shell,而是使用JDBC API,它与hiveserver进程而不是hive shell进行通信。 您不需要在maven项目中包含serde,因为JDBC API不像hive shell那样自动为您分发JAR。 您需要做的是将serde安装在您正在与交谈的配置单元服务器的额外libs目录

因此,这是一个配置问题,而不是代码问题。 与此问题无关,但使用try { ...} finally { ..}

关闭连接是一种很好的做法