Spark研究员,我对Spark很新,这就是为什么我希望你的帮助确实如此。
我正在尝试从笔记本电脑上安排火花集群上相当简单的工作。尽管它有效,但当我使用./spark-submit
提交它时,它会抛出一个异常,当我尝试以编程方式执行它时。
环境: - Spark - 1个主节点和2个工作节点(独立模式)。 Spark没有编译,但下载了二进制文件。 Spark版本 - 1.0.2 - java版本" 1.7.0_45" - 应用程序jar位于任何地方(在客户端和工作节点上的相同位置); - README.md文件也被复制到每个节点;
我尝试运行的应用程序:
val logFile = "/user/vagrant/README.md"
val conf = new SparkConf()
conf.setMaster("spark://192.168.33.50:7077")
conf.setAppName("Simple App")
conf.setJars(List("file:///user/vagrant/spark-1.0.2-bin-hadoop1/bin/hello-apache-spark_2.10-1.0.0-SNAPSHOT.jar"))
conf.setSparkHome("/user/vagrant/spark-1.0.2-bin-hadoop1")
val sc = new SparkContext(conf)
val logData = sc.textFile(logFile, 2).cache()
...
所以问题是,当我这样做时,这个应用程序在集群上成功运行:
./spark-submit --class com.paycasso.SimpleApp --master spark://192.168.33.50:7077 --deploy-mode client file:///home/vagrant/spark-1.0.2-bin-hadoop1/bin/hello-apache-spark_2.10-1.0.0-SNAPSHOT.jar
但当我尝试通过调用sbt run
这是我在主节点上的堆栈跟踪:
14/09/04 15:09:44 ERROR Remoting: org.apache.spark.deploy.ApplicationDescription; local class incompatible: stream classdesc serialVersionUID = -6451051318873184044, local class serialVersionUID = 583745679236071411
java.io.InvalidClassException: org.apache.spark.deploy.ApplicationDescription; local class incompatible: stream classdesc serialVersionUID = -6451051318873184044, local class serialVersionUID = 583745679236071411
at java.io.ObjectStreamClass.initNonProxy(ObjectStreamClass.java:617)
at java.io.ObjectInputStream.readNonProxyDesc(ObjectInputStream.java:1622)
at java.io.ObjectInputStream.readClassDesc(ObjectInputStream.java:1517)
at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1771)
at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1350)
at java.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1990)
at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1915)
at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1798)
at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1350)
at java.io.ObjectInputStream.readObject(ObjectInputStream.java:370)
at akka.serialization.JavaSerializer$$anonfun$1.apply(Serializer.scala:136)
at scala.util.DynamicVariable.withValue(DynamicVariable.scala:57)
at akka.serialization.JavaSerializer.fromBinary(Serializer.scala:136)
at akka.serialization.Serialization$$anonfun$deserialize$1.apply(Serialization.scala:104)
at scala.util.Try$.apply(Try.scala:161)
at akka.serialization.Serialization.deserialize(Serialization.scala:98)
at akka.remote.serialization.MessageContainerSerializer.fromBinary(MessageContainerSerializer.scala:58)
at akka.serialization.Serialization$$anonfun$deserialize$1.apply(Serialization.scala:104)
at scala.util.Try$.apply(Try.scala:161)
at akka.serialization.Serialization.deserialize(Serialization.scala:98)
at akka.remote.MessageSerializer$.deserialize(MessageSerializer.scala:23)
at akka.remote.DefaultMessageDispatcher.payload$lzycompute$1(Endpoint.scala:55)
at akka.remote.DefaultMessageDispatcher.payload$1(Endpoint.scala:55)
at akka.remote.DefaultMessageDispatcher.dispatch(Endpoint.scala:73)
at akka.remote.EndpointReader$$anonfun$receive$2.applyOrElse(Endpoint.scala:764)
at akka.actor.ActorCell.receiveMessage(ActorCell.scala:498)
at akka.actor.ActorCell.invoke(ActorCell.scala:456)
at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:237)
at akka.dispatch.Mailbox.run(Mailbox.scala:219)
at akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:386)
at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
这可能是什么解决方案? 提前谢谢。
答案 0 :(得分:10)
浪费了很多时间后,我发现了问题。 尽管我在我的应用程序中没有使用hadoop / hdfs,但hadoop客户端很重要。问题出在hadoop-client版本,它与hadoop的版本不同,spark是为其构建的。 Spark的hadoop版本1.2.1,但在我的应用程序中是2.4。
当我在我的应用程序中将hadoop客户端的版本更改为1.2.1时,我能够在群集上执行spark代码。
答案 1 :(得分:0)
您可以使用此类依赖项(在build.sbt文件中定义),而不是使用常规Spark Core库:
resolvers += "Talend" at "https://talend-update.talend.com/nexus/content/repositories/libraries/"
libraryDependencies += "org.talend.libraries" % "spark-assembly-1.6.0-hadoop2.6.0" % "6.0.0"
/!\那些spark-assembly -... hadoop ... librairies可能非常大(因此与Git push不兼容)。
答案 2 :(得分:0)
如果您使用的是预制火花。 (没有sbt或maven安装),确保所有工作节点使用相同版本的spark。我遇到了同样的问题,因为其中一个工作节点正在使用不同版本的spark。在所有节点上保持相同的版本为我解决了这个问题。一台机器使用spark-2.0.0 - bin-hadoop2.7而不是spark-2.0.0-preview-bin-hadoop2.7