S3N和S3A distcp在Hadoop 2.6.0中不起作用

时间:2015-05-07 18:16:40

标签: hadoop amazon-s3 hadoop2

摘要

股票hadoop2.6.0安装给了我no filesystem for scheme: s3n。将hadoop-aws.jar添加到类路径现在可以为ClassNotFoundException: org.apache.hadoop.fs.s3a.S3AFileSystem提供。

详细

我的主要安装了hadoop-2.6.0。我只设置目录,并设置以下环境变量:

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64/jre
export HADOOP_COMMON_HOME=/opt/hadoop
export HADOOP_HOME=$HADOOP_COMMON_HOME
export HADOOP_HDFS_HOME=$HADOOP_COMMON_HOME
export HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME
export HADOOP_OPTS=-XX:-PrintWarnings
export PATH=$PATH:$HADOOP_COMMON_HOME/bin

hadoop classpath是:

/opt/hadoop/etc/hadoop:/opt/hadoop/share/hadoop/common/lib/*:/opt/hadoop/share/hadoop/common/*:/opt/hadoop/share/hadoop/hdfs:/opt/hadoop/share/hadoop/hdfs/lib/*:/opt/hadoop/share/hadoop/hdfs/*:/opt/hadoop/share/hadoop/yarn/lib/*:/opt/hadoop/share/hadoop/yarn/*:/opt/hadoop/share/hadoop/mapreduce/lib/*:/opt/hadoop/share/hadoop/mapreduce/*:/contrib/capacity-scheduler/*.jar:/opt/hadoop/share/hadoop/tools/lib/*

当我尝试运行hadoop distcp -update hdfs:///files/to/backup s3n://${S3KEY}:${S3SECRET}@bucket/files/to/backup时,我得到Error: java.io.Exception, no filesystem for scheme: s3n。如果我使用s3a,我会抱怨抱怨s3a。

internet告诉我默认情况下hadoop-aws.jar不属于类路径。我将以下行添加到/opt/hadoop/etc/hadoop/hadoop-env.sh

HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HADOOP_COMMON_HOME/share/hadoop/tools/lib/*

现在hadoop classpath附加了以下内容:

:/opt/hadoop/share/hadoop/tools/lib/*

应涵盖/opt/hadoop/share/hadoop/tools/lib/hadoop-aws-2.6.0.jar。现在我明白了:

Caused by: java.lang.ClassNotFoundException:
Class org.apache.hadoop.fs.s3a.S3AFileSystem not found

jar文件包含无法找到的类:

unzip -l /opt/hadoop/share/hadoop/tools/lib/hadoop-aws-2.6.0.jar |grep S3AFileSystem
28349  2014-11-13 21:20   org/apache/hadoop/fs/s3a/S3AFileSystem.class

是否有订单添加这些罐子,或者我错过了其他重要的东西?

3 个答案:

答案 0 :(得分:6)

根据Abhishek对他回答的评论,我需要做的唯一改变是 mapred-site.xml

<property>
  <!-- Add to the classpath used when running an M/R job -->
  <name>mapreduce.application.classpath</name>
  <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*,$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*,$HADOOP_MAPRED_HOME/share/hadoop/tools/lib/*</value>
</property>

不需要对任何其他xml或sh文件进行任何更改。

答案 1 :(得分:4)

您可以通过向core-site.xml

添加以下行来解决s3n问题
<property>
<name>fs.s3n.impl</name>
<value>org.apache.hadoop.fs.s3native.NativeS3FileSystem</value>
<description>The FileSystem for s3n: (Native S3) uris.</description>
</property>

添加该属性后应该可以使用。

编辑:如果它无法解决您的问题,则必须在类路径中添加jar。你能检查mapred-site.xml是否有mapreduce.application.classpath:/ usr / hdp // hadoop-mapreduce / *。它将在classpath中包含其他相关的jar:)

答案 2 :(得分:0)

在当前的Hadoop(3.1.1)中,此方法不再有效。您可以通过取消注释etc / hadoop / hadoop-env.sh文件中的HADOOP_OPTIONAL_TOOLS行来解决此问题。除其他工具外,这还启用了hadoop-aws库。