spark-submit类路径问题--repositories --packages选项

时间:2016-02-22 16:40:20

标签: apache-spark apache-kafka spark-streaming

我在一个独立的集群中运行Spark,其中spark master,worker和提交每个运行在自己的Docker容器中。

spark-submit我的Java应用程序带有--repositories--packages选项时,我可以看到它成功下载了应用程序所需的依赖项。但是,stderr登录spark workers web ui会报告java.lang.ClassNotFoundException: kafka.serializer.StringDecoder。此类在spark-submit下载的其中一个依赖项中可用。但是看起来它在工人类路径上看起来不可用吗?

16/02/22 16:17:09 INFO SparkDeploySchedulerBackend: SchedulerBackend is ready for scheduling beginning after reached minRegisteredResourcesRatio: 0.0 Exception in thread "main" java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.spark.deploy.worker.DriverWrapper$.main(DriverWrapper.scala:58) at org.apache.spark.deploy.worker.DriverWrapper.main(DriverWrapper.scala) Caused by: java.lang.NoClassDefFoundError: kafka/serializer/StringDecoder at com.my.spark.app.JavaDirectKafkaWordCount.main(JavaDirectKafkaWordCount.java:71) ... 6 more Caused by: java.lang.ClassNotFoundException: kafka.serializer.StringDecoder at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) ... 7 more

spark-submit来电:

${SPARK_HOME}/bin/spark-submit --deploy-mode cluster \
--master spark://spark-master:7077 \
--repositories https://oss.sonatype.org/content/groups/public/ \
--packages org.apache.spark:spark-streaming-kafka_2.10:1.6.0,org.elasticsearch:elasticsearch-spark_2.10:2.2.0 \
--class com.my.spark.app.JavaDirectKafkaWordCount \
/app/spark-app.jar kafka-server:9092 mytopic

1 个答案:

答案 0 :(得分:0)

遇到此问题时,我正在使用Spark 2.4.0。我还没有解决方案,只是基于实验的一些观察和阅读解决方案。我在此向他们指出是为了防止某些人进行调查。如果以后再找到更多信息,我将更新此答案。

  • 只有在必须引用某些自定义存储库的情况下,才需要--repositories选项
  • 默认情况下,如果未提供--repositories选项,则使用maven中央存储库
  • 指定了--packages选项时,submit操作将尝试在~/.ivy2/cache~/.ivy2/jars~/.m2/repository目录中查找软件包及其相关性。
  • 如果找不到它们,则使用ivy从maven Central下载它们并将其存储在~/.ivy2目录下。

就我而言,我已经观察到

  • spark-shell--packages选项完美配合
  • spark-submit将无法执行相同的操作。它将正确下载依赖项,但无法将jar传递给驱动程序和工作程序节点
  • 如果我使用spark-submit而不是集群在本地运行驱动程序,则
  • --packages--deploy-mode client选项一起使用。
  • 这将在我运行spark-submit命令的命令外壳中本地运行驱动程序,但是工作程序将在具有适当依赖项jar的群集上运行

我发现以下讨论很有用,但我仍然必须确定这个问题。 https://github.com/databricks/spark-redshift/issues/244#issuecomment-347082455

大多数人只是使用UBER jar来避免遇到此问题,甚至避免平台所提供的相同依赖项jar的版本不同的jar版本冲突的问题。

但是我不喜欢停顿安排之外的想法,并且仍在寻找解决方案。