NoClassDefFoundError:SparkSession - 即使构建正在运行

时间:2016-11-02 15:32:48

标签: scala apache-spark

我将https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/ml/RandomForestClassifierExample.scala复制到新项目中并设置了build.sbt

name := "newproject"
version := "1.0"
scalaVersion := "2.11.8"

javacOptions ++= Seq("-source", "1.8", "-target", "1.8")
scalacOptions += "-deprecation"

libraryDependencies ++= Seq(
  "org.apache.spark" % "spark-core_2.11"  % "2.0.0" % "provided",
  "org.apache.spark" % "spark-sql_2.11"   % "2.0.0" % "provided",
  "org.apache.spark" % "spark-mllib_2.11" % "2.0.0" % "provided",
  "org.jpmml" % "jpmml-sparkml" % "1.1.1",
  "org.apache.maven.plugins" % "maven-shade-plugin" % "2.4.3",
  "org.scalatest" %% "scalatest" % "3.0.0"
)

我能够从IntelliJ 2016.2.5构建它,但是当我收到错误时

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession$
    at org.apache.spark.examples.ml.RandomForestClassifierExample$.main(RandomForestClassifierExample.scala:32)
    at org.apache.spark.examples.ml.RandomForestClassifierExample.main(RandomForestClassifierExample.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.SparkSession$
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 7 more

我甚至可以点击SparkSession并获取源代码。有什么问题?

4 个答案:

答案 0 :(得分:20)

当您为依赖项说provided时,构建将针对该依赖项进行编译,但它不会在运行时添加到类路径中(假设它已经存在)。

这是为spark-submit构建Spark作业时的正确设置(因为它们将在提供依赖关系的Spark容器内运行,并且第二次包含它会导致麻烦)。

但是,当您在本地运行时,您需要存在该依赖项。因此,要么将构建更改为不具有此provided(但是在构建提交作业时需要调整它),或者在IDE中将运行时类路径配置为已具有该jar文件。

答案 1 :(得分:4)

就我而言,我使用的是本地Cloudera CDH 5.9.0群集,默认安装了Spark 1.6.1,并且Spark 2.0.0作为包裹安装。因此,spark-submit使用Spark 1.6.1而spark2-submit是Spark 2.0.0。由于SparkSession在1.6.1中不存在,因此抛出了错误。使用正确的spark2-submit命令解决了问题。

答案 2 :(得分:2)

我遇到了同样的问题,在使用spark-submit提交spark作业之前设置SPARK_HOME变量后,它已得到修复。

答案 3 :(得分:1)

好的,我在sbt gitter频道上搜索了其他内容的链接后登陆这里。我有一个解决方案。 Thilo正确地描述了这个问题。当您在提供了spark库的集群上运行它时,您的sbt说“提供”对于您的目标环境是正确的,但是当您在IntelliJ中本地运行时,您需要在运行时“提供”这些外部库到IntelliJ这样做的方法是

  1. 右键点击您的项目 - >
  2. 打开模块设置 - >
  3. 在LHS菜单上选择库 - >
  4. 点击+号 - >
  5. 选择'来自Maven' - >
  6. 输入或搜索maven坐标。您可以通过键入lib名称并按Tab键进行搜索。这将显示所有匹配项的下拉列表,您可以为您的库选择正确的版本 - >
  7. 点击确定
  8. 请注意,重新启动IntelliJ时可能需要重复此过程。我发现这是OS X El Capitan上IntelliJ IDEA 2016.3.6的情况。