如何从本地Hadoop 2.6安装访问S3 / S3n?

时间:2015-01-19 16:23:43

标签: hadoop amazon-web-services amazon-s3 yarn hadoop2

我正在尝试在我的本地计算机上重现Amazon EMR集群。为此,我安装了latest stable version of Hadoop as of now - 2.6.0。 现在我想访问一个S3存储桶,就像我在EMR集群中一样。

我在core-site.xml中添加了aws凭据:

<property>
  <name>fs.s3.awsAccessKeyId</name>
  <value>some id</value>
</property>

<property>
  <name>fs.s3n.awsAccessKeyId</name>
  <value>some id</value>
</property>

<property>
  <name>fs.s3.awsSecretAccessKey</name>
  <value>some key</value>
</property>

<property>
  <name>fs.s3n.awsSecretAccessKey</name>
  <value>some key</value>
</property>

注意:由于密钥上有一些斜杠,我使用%2F

将其转义

如果我尝试列出存储桶的内容:

hadoop fs -ls s3://some-url/bucket/

我收到此错误:

ls:没有用于方案的文件系统:s3

我再次编辑了core-site.xml,并添加了与fs相关的信息:

<property>
  <name>fs.s3.impl</name>
  <value>org.apache.hadoop.fs.s3.S3FileSystem</value>
</property>

<property>
  <name>fs.s3n.impl</name>
  <value>org.apache.hadoop.fs.s3native.NativeS3FileSystem</value>
</property>

这次我得到了一个不同的错误:

-ls: Fatal internal error
java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3.S3FileSystem not found
        at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2074)
        at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2578)
        at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2591)

不知怎的,我怀疑纱线分布没有必要的罐子能够读取S3,但我不知道从哪里获得这些。任何指向这个方向的人都会非常感激。

5 个答案:

答案 0 :(得分:51)

出于某种原因,默认情况下版本2.6和版本中默认情况下,包含hadoop-aws-[version].jar实现的jar NativeS3FileSystem不存在于hadoop的classpath中。 2.7。因此,请尝试通过在位于hadoop-env.sh的{​​{1}}中添加以下行来将其添加到类路径中:

$HADOOP_HOME/etc/hadoop/hadoop-env.sh
  

假设您使用的是Apache Hadoop 2.6或2.7

顺便说一句,您可以使用以下方法检查Hadoop的类路径:

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HADOOP_HOME/share/hadoop/tools/lib/*

答案 1 :(得分:8)

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk:1.10.34,org.apache.hadoop:hadoop-aws:2.6.0 pyspark-shell'

import pyspark
sc = pyspark.SparkContext("local[*]")

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

hadoopConf = sc._jsc.hadoopConfiguration()
myAccessKey = input() 
mySecretKey = input()
hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
hadoopConf.set("fs.s3.awsAccessKeyId", myAccessKey)
hadoopConf.set("fs.s3.awsSecretAccessKey", mySecretKey)

df = sqlContext.read.parquet("s3://myBucket/myKey")

答案 2 :(得分:3)

@Ashrith的回答为我做了一次修改:在Ubuntu上运行v2.6时,我不得不使用$HADOOP_PREFIX而不是$HADOOP_HOME。也许这是因为听起来$HADOOP_HOME正在deprecated

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:${HADOOP_PREFIX}/share/hadoop/tools/lib/*

话虽如此,在我的Mac上通过Homebrew安装v2.6时,我都没有工作。在这种情况下,我使用这个极其狡猾的出口:

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$(brew --prefix hadoop)/libexec/share/hadoop/tools/lib/*

答案 3 :(得分:2)

为了解决这个问题,我尝试了以上所有方法,但都失败了(无论如何我的环境)。

然而,我能够通过将上面提到的两个罐从工具目录复制到common / lib中来实现它。

之后工作得很好。

答案 4 :(得分:1)

如果您使用的是HDP 2.x或更高版本,可以尝试在Ambari的MapReduce2配置设置中修改以下属性。

mapreduce.application.classpath

将以下值附加到现有字符串的末尾:

的/ usr / HDP / $ {hdp.version} / Hadoop的MapReduce的/ *