HiveContext.sql()给出运行时没有这样的方法错误

时间:2017-06-01 00:01:35

标签: java maven hadoop apache-spark hive

您好我正在尝试使用Apache Hive和Apache Spark运行一个简单的Java程序。程序编译没有任何错误,但在运行时我收到以下错误:

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.sql.hive.HiveContext.sql(Ljava/lang/String;)Lorg/apache/spark/sql/DataFrame;
at SparkHiveExample.main(SparkHiveExample.java:13)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:743)
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

以下是我的代码:

 import org.apache.spark.SparkContext;
 import org.apache.spark.SparkConf;
 import org.apache.spark.sql.hive.HiveContext;
 import org.apache.spark.sql.DataFrame;
 public class SparkHiveExample {
 public static void main(String[] args) {
 SparkConf conf = new SparkConf().setAppName("SparkHive Example");
 SparkContext sc = new SparkContext(conf);
 HiveContext hiveContext = new HiveContext(sc);

 System.out.println("Hello World");
 DataFrame df = hiveContext.sql("show tables");
 df.show();
 }
}

我的pom.xml文件如下所示:

<project>
  <groupId>edu.berkeley</groupId>
  <artifactId>simple-project</artifactId>
  <modelVersion>4.0.0</modelVersion>
  <name>Simple Project</name>
  <packaging>jar</packaging>
  <version>1.0</version>
  <dependencies>
     <dependency> <!-- Spark dependency -->
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.10</artifactId>
        <version>1.3.0</version>
     </dependency>
     <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-hive_2.10</artifactId>
        <version>1.3.0</version>
     </dependency>
 </dependencies>
</project>

可能是什么问题?

编辑:我尝试使用SQLContext.sql()方法,我仍然得到一个类似的方法没有发现运行时错误。 This stackoverflow回答表明问题是由于依赖性问题引起的,但我无法弄清楚是什么。

3 个答案:

答案 0 :(得分:0)

确保将spark core和spark hive依赖项设置为provided的范围,如下所示。这些依赖项由集群提供,而不是由您的应用程序提供。

确保您的spark安装版本为1.3或更高版本。在1.3之前,sql方法返回了RDD(SchemaRDD)而不是DataFrame。很可能安装的spark版本早于1.3。

 <dependency> 
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.10</artifactId>
    <version>1.3.0</version>
    <scope>provided</scope>
 </dependency>
 <dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-hive_2.10</artifactId>
    <version>1.3.0</version>
    <scope>provided</scope>
 </dependency>

建议您使用SparkSession对象来运行查询而不是HiveContext。下面的代码片段解释了SparkSession的用法。

val spark = SparkSession.builder.
      master("local")
      .appName("spark session example")
      .enableHiveSupport()
      .getOrCreate()

spark.sql("show tables")

答案 1 :(得分:0)

错误是因为您正在应用query显示表并分配给Dataframe

您可以在使用DataFrame或类似查询时分配到select query,但不能show query

答案 2 :(得分:0)

from pyspark.sql.types import DecimalType,StringType
from pyspark.sql.functions import *
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("Your APPName").enableHiveSupport().getOrCreate()

from pyspark.sql import HiveContext
hive_context = HiveContext(spark)

hive_context.sql("select current_date()").show()