Question

看起来我再次陷入使用spark submit运行打包的火花应用jar。以下是我的pom文件：

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
    <parent>
        <artifactId>oneview-forecaster</artifactId>
        <groupId>com.dataxu.oneview.forecast</groupId>
        <version>1.0.0-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>
    <artifactId>forecaster</artifactId>

<dependencies>
    <dependency>
        <groupId>com.fasterxml.jackson.core</groupId>
        <artifactId>jackson-databind</artifactId>
    </dependency>
    <dependency>
        <groupId>com.fasterxml.jackson.module</groupId>
        <artifactId>jackson-module-scala_${scala.binary.version}</artifactId>
    </dependency>
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-library</artifactId>
        <version>${scala.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming_${scala.binary.version}</artifactId>
        <version>${spark.version}</version>
        <scope>provided</scope>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_${scala.binary.version}</artifactId>
        <version>${spark.version}</version>
        <!--<scope>provided</scope>-->
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-hive -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-hive_2.11</artifactId>
        <version>2.2.0</version>
        <!--<scope>provided</scope>-->
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-aws</artifactId>
        <version>2.8.3</version>
        <!--<scope>provided</scope>-->
    </dependency>
    <dependency>
        <groupId>com.amazonaws</groupId>
        <artifactId>aws-java-sdk</artifactId>
        <version>1.10.60</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/joda-time/joda-time -->
    <dependency>
        <groupId>joda-time</groupId>
        <artifactId>joda-time</artifactId>
        <version>2.9.9</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common -->
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>2.8.0</version>
        <!--<scope>provided</scope>-->
    </dependency>
</dependencies>

<build>
    <sourceDirectory>src/main/scala</sourceDirectory>
    <testSourceDirectory>src/test/scala</testSourceDirectory>
    <plugins>
        <plugin>
            <groupId>net.alchim31.maven</groupId>
            <artifactId>scala-maven-plugin</artifactId>
            <version>${scala-maven-plugin.version}</version>
            <executions>
                <execution>
                    <goals>
                        <goal>compile</goal>
                        <goal>testCompile</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
        <plugin>
            <artifactId>maven-assembly-plugin</artifactId>
            <configuration>
                <archive>
                    <manifest>
                        <mainClass>com.dataxu.oneview.forecaster.App</mainClass>
                    </manifest>
                </archive>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
            </configuration>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
                    <goals>
                        <goal>single</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

以下是一段简单的代码片段，它从s3位置获取数据并将其打印出来：

def getS3Data(path: String): Map[String, Any] = {
    println("spark session start.........")
    val spark =  getSparkSession()

    val configTxt = spark.sparkContext.textFile(path)
        .collect().reduce(_ + _)

    val mapper = new ObjectMapper
    mapper.registerModule(DefaultScalaModule)
    mapper.readValue(configTxt, classOf[Map[String, String]])
}

当我从intellij运行时，一切正常。日志清晰，看起来不错。但是，当我使用mvn包打包并尝试使用spark submit运行它时，我最终在.collect.reduce(_ + _)处收到以下错误。以下是我遇到的错误：

 "main" java.lang.NoSuchMethodError: org.apache.hadoop.conf.Configuration.reloadExistingConfigurations()V
at org.apache.hadoop.fs.s3a.S3AFileSystem.addDeprecatedKeys(S3AFileSystem.java:181)
at org.apache.hadoop.fs.s3a.S3AFileSystem.<clinit>(S3AFileSystem.java:185)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:348)
...

我不明白哪个依赖项没有打包或者可能是什么问题，因为我确实设置了版本，期望hadoop aws应该拥有所有这些。

任何帮助将不胜感激。

Answer 1

hadoop和AWS JDK之间的依赖关系非常敏感，您应该坚持使用构建了hadoop依赖版本的正确版本。

您需要解决的第一个问题是选择一个版本的Hadoop。我看到你正在混合版本2.8.3和2.8.0。

当我查看org.apache.hadoop:hadoop-aws:2.8.0的依赖关系树时，我发现它是针对AWS开发工具包的1.10.6版本构建的（hadoop-aws:2.8.3也是如此）。

这可能是导致不匹配的原因（您正在混合不兼容的版本）。所以：

选择您要使用的hadoop版本
包含与您的hadoop兼容的版本的hadoop-aws
删除其他依赖项，或仅包含与您的hadoop版本兼容的版本的版本。

Answer 2

万一其他人仍在绊脚石上……我花了一段时间才找出来，但请检查您的项目是否对软件包 org.apache.avro /有依赖性（直接或可传递）。 avro工具。它由可传递依赖项带入我的代码中。它的问题是它附带了 org.apache.hadoop.conf.Configuration 的副本该版本比所有当前版本的hadoop都旧，因此最终可能是在类路径中选择的版本。

在我的scala项目中，我只需要用

将其排除

 ExclusionRule("org.apache.avro","avro-tools")

，错误（最终！）消失了。

我确定avro-tools编码器有充分的理由要包含一个文件的副本，该文件属于另一个软件包（hadoop-common），我真的很惊讶在那找到它并浪费了我整整一整天。

Answer 3

就我而言，我在Cloudera边缘节点上运行本地Spark安装并遇到了此冲突（即使我确保使用预先编译的正确hadoop二进制文件下载Spark）。我刚到我的Spark家中，移动了hadoop常见的jar，因此不会被加载：

mv ~/spark-2.4.4-bin-hadoop2.6/jars/hadoop-common-2.6.5.jar ~/spark-2.4.4-bin-hadoop2.6/jars/hadoop-common-2.6.5.jar.XXXXXX

之后，它还是以本地模式运行了。

java.lang.NoSuchMethodError：org.apache.hadoop.conf.Configuration.reloadExistingConfigurations（）V

3 个答案: