我正在使用https://github.com/rcongiu/Hive-JSON-Serde这个json serde。 我在将json serde jar添加到控制台后执行查询,它会将数据返回给我。我试图用java代码做同样的事情,但它没有发生。
hive> use oracle_json;
OK
Time taken: 0.858 seconds
hive> add jar json-serde-1.3.6-jar-with-dependencies.jar;
Added json-serde-1.3.6-jar-with-dependencies.jar to class path
Added resource: json-serde-1.3.6-jar-with-dependencies.jar
hive> select * from oracle_trading limit 1;
OK
[{"close_date":"2015-08-09 16:59:37.000000000","instrument_type":"Options","units":95000.0,"created_date":"2011-05-03 16:59:37.000000000","empid":10776,"instrument":"Instrument442","id":442,"open_date":null,"customer_id":870,"indexname":"FTSE","currency":null,"empsal":null}]
我正在尝试编写一个从hive表中获取数据的程序。 数据采用json serde格式。从json serde表中获取数据时出现异常。 特别是我不知道如何对来自hive2服务器的数据进行反序列化,也不知道如何通过java代码使用这个json serde jar。你可以帮我做同样的事。
package com.db.hive;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import org.openx.data.jsonserde.JsonSerDe;
/*This jsonSerDe library I have added to POM file BUT do not know how to use
while executing the executeQuery() method
*/
public class HiveTableExample {
private static String driverName = "org.apache.hive.jdbc.HiveDriver";
final static String url = "jdbc:hive2://xxxx:10000/oracle_json";
final static String user_name = "xxxx";
final static String pwd = "xxxxx";
private static JsonSerDe de = null;
public static void main(String[] args) throws SQLException {
try {
Class.forName(driverName);
} catch (ClassNotFoundException e) {
System.exit(1);
}
Connection con = DriverManager.getConnection(url, user_name, pwd);
Statement stmt = con.createStatement();
String sql = "select * from oracle_trading limit 10";
System.out.println("Running: " + sql);
ResultSet res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(String.valueOf(res.getString(1)) + "\t" + res.getString(2));
}
}
}
我得到例外,如下所示。 ... ...
Running: select * from oracle_trading limit 10
Exception in thread "main" org.apache.hive.service.cli.HiveSQLException: Error while compiling statement: FAILED: RuntimeException MetaException(message:java.lang.ClassNotFoundException Class org.openx.data.jsonserde.JsonSerDe not found)
at org.apache.hive.jdbc.Utils.verifySuccess(Utils.java:231)
at org.apache.hive.jdbc.Utils.verifySuccessWithInfo(Utils.java:217)
at org.apache.hive.jdbc.HiveStatement.execute(HiveStatement.java:254)
at org.apache.hive.jdbc.HiveStatement.executeQuery(HiveStatement.java:392)
at com.db.hive.HiveTableExample.main(HiveTableExample.java:42)
我的POM文件
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.db.hive</groupId>
<artifactId>HiveQuery</artifactId>
<version>1.0-SNAPSHOT</version>
<packaging>jar</packaging>
<build>
<plugins>
<plugin>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.3</version>
<configuration>
<source>1.7</source>
<target>1.7</target>
</configuration>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-assembly-plugin</artifactId>
<version>2.4.1</version>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
<configuration>
<archive>
<manifest>
<addClasspath>true</addClasspath>
<mainClass>com.db.hive.HiveTableExample</mainClass>
</manifest>
</archive>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
</configuration>
</plugin>
</plugins>
</build>
<dependencies>
<dependency>
<groupId>org.openx.data</groupId>
<artifactId>json-serde</artifactId>
<version>1.3.6-SNAPSHOT-jar-with-dependencies</version>
<scope>system</scope>
<systemPath>C:\Users\mahendra.pansare\Documents\NetBeansProjects\HiveQuery\src\main\resources\json-serde-1.3.6-SNAPSHOT-jar-with-dependencies.jar</systemPath>
</dependency>
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-jdbc</artifactId>
<version>1.1.0</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.4</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-core</artifactId>
<version>1.2.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.7.0</version>
</dependency>
</dependencies>
</project>
答案 0 :(得分:2)
要回答这个问题,我首先要解释一下serde的工作原理。 SerDe是一种向hive添加新功能的方法,提供了一个可扩展的接口,可以插入数据格式,如JSON。
作为hive的扩展,serde的代码必须可用于集群中的所有节点。
使用hive shell时,可以通过将serde放入EXTRA_LIBS目录或告诉脚本ADD JAR serde.jar
来实现。
hive shell为您做的是实际接受serde并在每次运行查询时将其发送到所有节点。
现在,至于你的问题。您没有使用shell,而是使用JDBC API,它与hiveserver进程而不是hive shell进行通信。 您不需要在maven项目中包含serde,因为JDBC API不像hive shell那样自动为您分发JAR。 您需要做的是将serde安装在您正在与交谈的配置单元服务器的额外libs目录中
因此,这是一个配置问题,而不是代码问题。
与此问题无关,但使用try { ...} finally { ..}