我将https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/ml/RandomForestClassifierExample.scala复制到新项目中并设置了build.sbt
name := "newproject"
version := "1.0"
scalaVersion := "2.11.8"
javacOptions ++= Seq("-source", "1.8", "-target", "1.8")
scalacOptions += "-deprecation"
libraryDependencies ++= Seq(
"org.apache.spark" % "spark-core_2.11" % "2.0.0" % "provided",
"org.apache.spark" % "spark-sql_2.11" % "2.0.0" % "provided",
"org.apache.spark" % "spark-mllib_2.11" % "2.0.0" % "provided",
"org.jpmml" % "jpmml-sparkml" % "1.1.1",
"org.apache.maven.plugins" % "maven-shade-plugin" % "2.4.3",
"org.scalatest" %% "scalatest" % "3.0.0"
)
我能够从IntelliJ 2016.2.5构建它,但是当我收到错误时
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession$
at org.apache.spark.examples.ml.RandomForestClassifierExample$.main(RandomForestClassifierExample.scala:32)
at org.apache.spark.examples.ml.RandomForestClassifierExample.main(RandomForestClassifierExample.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.SparkSession$
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
... 7 more
我甚至可以点击SparkSession并获取源代码。有什么问题?
答案 0 :(得分:20)
当您为依赖项说provided
时,构建将针对该依赖项进行编译,但它不会在运行时添加到类路径中(假设它已经存在)。
这是为spark-submit
构建Spark作业时的正确设置(因为它们将在提供依赖关系的Spark容器内运行,并且第二次包含它会导致麻烦)。
但是,当您在本地运行时,您需要存在该依赖项。因此,要么将构建更改为不具有此provided
(但是在构建提交作业时需要调整它),或者在IDE中将运行时类路径配置为已具有该jar文件。
答案 1 :(得分:4)
就我而言,我使用的是本地Cloudera CDH 5.9.0群集,默认安装了Spark 1.6.1,并且Spark 2.0.0作为包裹安装。因此,spark-submit
使用Spark 1.6.1而spark2-submit
是Spark 2.0.0。由于SparkSession在1.6.1中不存在,因此抛出了错误。使用正确的spark2-submit
命令解决了问题。
答案 2 :(得分:2)
我遇到了同样的问题,在使用spark-submit提交spark作业之前设置SPARK_HOME变量后,它已得到修复。
答案 3 :(得分:1)
好的,我在sbt gitter频道上搜索了其他内容的链接后登陆这里。我有一个解决方案。 Thilo正确地描述了这个问题。当您在提供了spark库的集群上运行它时,您的sbt说“提供”对于您的目标环境是正确的,但是当您在IntelliJ中本地运行时,您需要在运行时“提供”这些外部库到IntelliJ这样做的方法是
请注意,重新启动IntelliJ时可能需要重复此过程。我发现这是OS X El Capitan上IntelliJ IDEA 2016.3.6的情况。