我使用Apache Hadoop 1.2.1开发了map-reduce程序。我使用Eclipse IDE进行了初始开发,以使用来自本地文件系统的所有输入和输出文件来模拟hadoop分布式计算环境。该程序将在Eclipse中执行,没有任何问题。然后我使用Eclipse创建一个JAR文件,并尝试在我的集群一台hadoop机器上运行它并收到错误:
这是我设置和运行hadoop作业的代码:
String outputPath = "/output";
String hadoopInstructionsPath = args[0];
Job job = new Job();
job.setJarByClass(Main.class); //setJarByClass is here but not found apparently?!?
job.setJobName("KLSH");
FileInputFormat.addInputPath(job, new Path(hadoopInstructionsPath));
FileOutputFormat.setOutputPath(job,new Path(outputPath));
job.setMapperClass(KLSHMapper.class);
job.setReducerClass(KLSHReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
System.exit(job.waitForCompletion(true) ? 0:1);
boolean success = job.waitForCompletion(true);
return success ? 0 : 1;
然后我使用eclipse使用eclipse创建一个jar - >出口 - > Runnable JAR文件,用于创建要在群集上运行的JAR文件。
我用来运行作业的命令如下(KLSH.jar是JAR文件的名称,/ hadoopInstruction是args [0]输入参数,imageFeature.Main /指定主类的位置)< / p>
./hadoop jar ./KLSH.jar /hadoopInstructions imageFeatures.Main/
这会产生以下输出:
14/11/12 11:11:48 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
14/11/12 11:11:48 WARN mapred.JobClient: No job jar file set. User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
14/11/12 11:11:48 INFO input.FileInputFormat: Total input paths to process : 1
14/11/12 11:11:48 INFO util.NativeCodeLoader: Loaded the native-hadoop library
14/11/12 11:11:48 WARN snappy.LoadSnappy: Snappy native library not loaded
14/11/12 11:11:49 INFO mapred.JobClient: Running job: job_201411051030_0022
14/11/12 11:11:50 INFO mapred.JobClient: map 0% reduce 0%
14/11/12 11:11:56 INFO mapred.JobClient: Task Id : attempt_201411051030_0022_m_000000_0, Status : FAILED
java.lang.RuntimeException: java.lang.ClassNotFoundException: imageFeatures.KLSHMapper
...
所以它出错了,因为它找不到mapper类。有&#34;没有工作jar文件集&#34;警告,但我觉得我已经在第一个代码块中指定了job.setJarByClass,所以我不知道为什么会抛出这个错误...
我也知道KLSHMapper类在JAR中,因为如果我运行以下命令:
jar tf KLSH.jar
我得到了很多输出,但这是输出的一部分:
...
imageFeatures/Main.class
imageFeatures/Feature.class
imageFeatures/FileLoader.class
imageFeatures/KLSHMapper.class
...
很明显KLSHMapper类在那里...我已经尝试修改我的hadoop类路径以包含KLSH.jar路径,我尝试将KLSH.jar复制到DFS并尝试使用该路径而不是我本地文件系统上的路径,我也尝试使用-libjars说明符执行作业。无论我似乎尝试什么,hadoop似乎无法找到我的Mapper类。任何人都可以指出我做错了吗?我似乎无法从我在Eclipse中运行的代码跳转到使其在真正的Hadoop集群上运行。谢谢!
答案 0 :(得分:0)
你的文件中是否有import语句:
import imageFeatures.KLSHMapper;
您还需要在CLASSPATH环境变量中包含包含imageFeatures.KLSMapper的jar文件。这是非常奇怪的,你来到这里的外国代码所以也许我离开了标记...
答案 1 :(得分:0)
经过一些额外的工作,我能够解决自己的问题。最终,它归结为我构建jar文件的方式,然后我尝试在hadoop集群上执行。
我没有使用eclipse来构建JAR文件,而是使用命令行中的Maven来构建JAR文件。在pom.xml文件中,您可以通过使用以下行来指定主类:
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-jar-plugin</artifactId>
<configuration>
<archive>
<manifest>
<mainClass>maxTemp.MaxTemperature</mainClass>
</manifest>
</archive>
</configuration>
</plugin>
在我的例子中,maxTemp是包,MaxTemperature是包含我的main方法的类。这将导致maven为您构建的JAR中包含的清单文件添加以下行:
Main-Class: maxTemp.MaxTemperature
现在当你使用hadoop执行jar文件时,你将不再需要指定mainClass,因为你已经在jar的清单中这样做了。如果JAR清单中没有此行,则需要使用以下语法在集群上执行作业:
./hadoop jarFile [mainClass] args...
使用清单文件中的行,您可以按如下方式执行作业:
./hadoop jarFile args...
作为一个有点相关的问题,我遇到了一些问题,因为我正在使用jeigen java库来做一些线性代数。我的群集无法找到我使用的依赖项(jeigen.jar),并且它丢失了更多错误。我最终建造了一个胖罐子,如本网站所述:
http://hadoopi.wordpress.com/2014/06/05/hadoop-add-third-party-libraries-to-mapreduce-job/
通过对我的pom.xml文件的一些补充,我能够生成一个maxTemp-jar-with-dependencies,然后集群能够找到我所有的依赖项,因为它们包含在jar文件中。我希望这有助于将来节省一些时间。其中一些依赖项是在我的本地系统上,而Maven无法去获取它们。我能够将maven指向他们并使用以下命令手动安装它们:
mvn install:install-file -DgroupId=jeigen -DartifactId=jeigen -Dversion=1 -Dpackaging=jar -Dfile=/path/to/the/location/of/Jeigen.jar
这是我的pom.xml文件,它生成两个jar,一个包含,一个没有依赖:
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>maxTemp</groupId>
<artifactId>maxTemp</artifactId>
<version>0.0.1</version>
<build>
<sourceDirectory>src</sourceDirectory>
<plugins>
<plugin>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.1</version>
<configuration>
<source>1.7</source>
<target>1.7</target>
</configuration>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-jar-plugin</artifactId>
<configuration>
<archive>
<manifest>
<mainClass>maxTemp.MaxTemperature</mainClass>
</manifest>
</archive>
</configuration>
</plugin>
<plugin>
<artifactId>maven-assembly-plugin</artifactId>
<configuration>
<archive>
<manifest>
<mainClass>maxTemp.MaxTemperature</mainClass>
</manifest>
</archive>
<descriptorRefs>
<descriptorRef>
jar-with-dependencies
</descriptorRef>
</descriptorRefs>
</configuration>
<executions>
<execution>
<id>make-assembly</id>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>1.2.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-core</artifactId>
<version>1.2.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-tools</artifactId>
<version>1.2.1</version>
</dependency>
<dependency>
<groupId>jeigen</groupId>
<artifactId>jeigen</artifactId>
<version>1</version>
</dependency>
<dependency>
<groupId>jna</groupId>
<artifactId>jna</artifactId>
<version>4.0.0</version>
</dependency>
</dependencies>
</project>