我有一个Hadoop作业,映射器必须使用外部jar。
我试图将这个jar传递给mapper的JVM
通过hadoop命令的-libjars参数
hadoop jar mrrunner.jar DAGMRRunner -libjars <path_to_jar>/colt.jar
通过job.addFileToClassPath
job.addFileToClassPath(new Path("<path_to_jar>/colt.jar"));
在HADOOP_CLASSPATH上。
g1mihai@hydra:/home/g1mihai/$ echo $HADOOP_CLASSPATH
<path_to_jar>/colt.jar
这些方法都不起作用。这是我回来的堆栈跟踪。它抱怨的缺少的类是SparseDoubleMatrix1D在colt.jar。
如果我应该提供任何其他调试信息,请告诉我。感谢。
15/02/14 16:47:51 INFO mapred.MapTask: Starting flush of map output
15/02/14 16:47:51 INFO mapred.LocalJobRunner: map task executor complete.
15/02/14 16:47:51 WARN mapred.LocalJobRunner: job_local368086771_0001
java.lang.Exception: java.lang.NoClassDefFoundError: Lcern/colt/matrix/impl/SparseDoubleMatrix1D;
at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)
Caused by: java.lang.NoClassDefFoundError: Lcern/colt/matrix/impl/SparseDoubleMatrix1D;
at java.lang.Class.getDeclaredFields0(Native Method)
at java.lang.Class.privateGetDeclaredFields(Class.java:2499)
at java.lang.Class.getDeclaredField(Class.java:1951)
at java.io.ObjectStreamClass.getDeclaredSUID(ObjectStreamClass.java:1659)
at java.io.ObjectStreamClass.access$700(ObjectStreamClass.java:72)
at java.io.ObjectStreamClass$2.run(ObjectStreamClass.java:480)
at java.io.ObjectStreamClass$2.run(ObjectStreamClass.java:468)
at java.security.AccessController.doPrivileged(Native Method)
at java.io.ObjectStreamClass.<init>(ObjectStreamClass.java:468)
at java.io.ObjectStreamClass.lookup(ObjectStreamClass.java:365)
at java.io.ObjectStreamClass.initNonProxy(ObjectStreamClass.java:602)
at java.io.ObjectInputStream.readNonProxyDesc(ObjectInputStream.java:1622)
at java.io.ObjectInputStream.readClassDesc(ObjectInputStream.java:1517)
at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1771)
at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1350)
at java.io.ObjectInputStream.readObject(ObjectInputStream.java:370)
at BoostConnector.ConnectCalculateBoost(BoostConnector.java:39)
at DAGMapReduceSearcher$Map.map(DAGMapReduceSearcher.java:46)
at DAGMapReduceSearcher$Map.map(DAGMapReduceSearcher.java:22)
at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:784)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:243)
at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
at java.util.concurrent.FutureTask.run(FutureTask.java:262)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.ClassNotFoundException: cern.colt.matrix.impl.SparseDoubleMatrix1D
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
... 28 more
答案 0 :(得分:3)
我相信这个问题值得详细解答,昨天我被困在这里,浪费了很多时间。我希望这个答案可以帮助所有遇到这种情况的人。有几种方法可以解决这个问题:
将外部jar(依赖项JAR)包含在应用程序jar文件中。您可以使用Eclipse轻松完成此操作。这个选项的缺点是它会使你的应用程序jar膨胀,你的MapRed作业将花费更多的时间来执行。每次您的依赖版本更改时,您都必须重新编译应用程序等。最好不要走这条路。
使用“Hadoop classpath” - 在命令行上运行命令“hadoop classpath”,然后找到合适的文件夹并将jar文件复制到该位置,hadoop将从那里获取依赖项。这不适用于CloudEra等,因为您可能没有将文件复制到hadoop类路径文件夹的读/写权限。
我使用的选项是使用Hadoop jar命令指定-LIBJARS。首先确保编辑驱动程序类:
public class myDriverClass extends Configured implements Tool {
public static void main(String[] args) throws Exception {
int res = ToolRunner.run(new Configuration(), new myDriverClass(), args);
System.exit(res);
}
public int run(String[] args) throws Exception
{
// Configuration processed by ToolRunner
Configuration conf = getConf();
Job job = new Job(conf, "My Job");
...
...
return job.waitForCompletion(true) ? 0 : 1;
}
}
现在编辑你的“hadoop jar”命令,如下所示:
hadoop jar YourApplication.jar [myDriverClass] args -libjars path/to/jar/file
现在让我们了解下面发生了什么。基本上我们通过实现TOOL Interface来处理新的命令行参数。 ToolRunner用于运行实现Tool接口的类。它与GenericOptionsParser结合使用来解析泛型hadoop命令行参数并修改工具的配置。
在我们的Main()中,我们调用ToolRunner.run(new Configuration(), new myDriverClass(), args)
- 在使用给定的泛型参数解析后,它运行Tool.run(String [])给定的工具,。它使用给定的Configuration,或者如果它为null则构建一个,然后使用可能修改的conf版本设置Tool的配置。
现在在run方法中,当我们调用getConf()时,我们得到了Configuration的修改版本。 因此,请确保您的代码中包含以下行。如果您实现其他所有内容并仍然使用Configuration conf = new Configuration(),则无法正常工作。
Configuration conf = getConf();
答案 1 :(得分:0)
使用分布式缓存 - 您可以在缓存中包含任何可执行文件或小型参考文件,并在MR作业中使用它。
https://hadoop.apache.org/docs/r1.2.1/api/org/apache/hadoop/filecache/DistributedCache.html
有两种运行MR作业的方法,一种是在运行时使用类名称,另一种是在导出jar时提及主类。
hadoop jar jarname.jar DriverClassName Input-Location Output-Location
hadoop jar jarname.jar Input-Location Output-Location
答案 2 :(得分:0)
我用了这个:
$ export LIBJARS=$HOME/.m2/repository/net/sf/opencsv/opencsv/2.3/opencsv-2.3.jar,$HOME/.m2/repository/org/apache/commons/commons-lang3/3.1/commons-lang3-3.1.jar,$HOME/.m2/repository/commons-beanutils/commons-beanutils/1.7.0/commons-beanutils-1.7.0.jar,$HOME/.m2/repository/commons-collections/commons-collections/3.2.1/commons-collections-3.2.1.jar
$ export HADOOP_CLASSPATH=`echo ${LIBJARS} | sed s/,/:/g`
$ $HADOOP_HOME/bin/hadoop jar $HOME/.m2/repository/hadoopTest/hadoopTest/0.0.2-SNAPSHOT/hadoopTest-0.0.2-SNAPSHOT.jar hadoopTest.testTask.TestTask -libjars ${LIBJARS} $HADOOP_HOME/input/ $HADOOP_HOME/output
它在Hadoop 3.2.0中可以正常工作。