如何设置EMR类路径

时间:2014-12-17 23:11:29

标签: java hadoop amazon-web-services mapreduce emr

我正在AWS EMR集群上运行工作,并且遇到Jackson库冲突的问题。根据文章here,我尝试使用以下脚本添加引导步骤以设置我的类路径:

#!/bin/bash
export HADOOP_USER_CLASSPATH_FIRST=true;
echo "HADOOP_CLASSPATH=s3n://bucket/myjar.jar" > /home/hadoop/conf/hadoop-user-env.sh

我已经构建了我的jar,以便包含它的所有依赖项。我这样做的第一个问题是我的启用调试步骤,我已经死了以下错误:

Exception in thread "main" java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.amazon.ws.emr.hadoop.fs.EmrFileSystem not found
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1895)
at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2427)
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2440)
at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:88)
at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2479)
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2461)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:372)
at com.amazon.elasticmapreduce.scriptrunner.ScriptRunner.fetchFile(ScriptRunner.java:39)
at com.amazon.elasticmapreduce.scriptrunner.ScriptRunner.main(ScriptRunner.java:56)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at org.apache.hadoop.util.RunJar.main(RunJar.java:212)
Caused by: java.lang.ClassNotFoundException: Class com.amazon.ws.emr.hadoop.fs.EmrFileSystem not found
at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1801)
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1893)
... 13 more

所以我有两个问题,这个启用调试步骤的问题是什么?将我的类路径作为s3位置是否有效?如果不是,那应该是什么价值:

/path/to/my.jar

在上面显示的页面上的示例中?

1 个答案:

答案 0 :(得分:3)

查看您的引导操作,看起来您的字符串中可能存在错误。该行应如下所示:

#!/bin/bash
export HADOOP_USER_CLASSPATH_FIRST=true
echo "HADOOP_CLASSPATH=/path/to/my.jar" >> /home/hadoop/conf/hadoop-user-env.sh

请注意' >> '字符。单个' > '意味着您要使用“回声”的输出替换整个文件。命令,而双重'>'表示您在脚本末尾附加该行。另外,在Bash脚本中不需要分号。

参考文献:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-hadoop-config_hadoop-user-env.sh.html

PS:亚马逊非常棒的支持发现了这个问题并回复了我的电子邮件;虽然我没有问过这个问题。这就是作者的归属 - AWS支持工程师名为 Rendy O。