从一个简单的java程序调用mapreduce作业

时间:2012-03-24 06:56:03

标签: java hadoop mapreduce

我一直试图从同一个包中的一个简单的java程序调用mapreduce作业。我试图在我的java程序中引用mapreduce jar文件,并使用runJar(String args[])方法调用它,同时传递mapreduce作业的输入和输出路径..但​​程序dint工作..


如何运行这样的程序,我只使用传递输入,输出和jar路径到它的主方法?是否可以通过它运行mapreduce作业(jar)?我想这样做是因为我想一个接一个地运行几个mapreduce作业,我的java程序vl通过引用它的jar文件来调用每个这样的作业。如果这样可行,我不妨只使用一个简单的servlet来做这样的调用并参考其输出文件以用于图表目的..


/*
 * To change this template, choose Tools | Templates
 * and open the template in the editor.
 */

/**
 *
 * @author root
 */
import org.apache.hadoop.util.RunJar;
import java.util.*;

public class callOther {

    public static void main(String args[])throws Throwable
    {

        ArrayList arg=new ArrayList();

        String output="/root/Desktp/output";

        arg.add("/root/NetBeansProjects/wordTool/dist/wordTool.jar");

        arg.add("/root/Desktop/input");
        arg.add(output);

        RunJar.main((String[])arg.toArray(new String[0]));

    }
}

6 个答案:

答案 0 :(得分:31)

哦,请不要使用runJar,Java API非常好。

了解如何从正常代码开始工作:

// create a configuration
Configuration conf = new Configuration();
// create a new job based on the configuration
Job job = new Job(conf);
// here you have to put your mapper class
job.setMapperClass(Mapper.class);
// here you have to put your reducer class
job.setReducerClass(Reducer.class);
// here you have to set the jar which is containing your 
// map/reduce class, so you can use the mapper class
job.setJarByClass(Mapper.class);
// key/value of your reducer output
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
// this is setting the format of your input, can be TextInputFormat
job.setInputFormatClass(SequenceFileInputFormat.class);
// same with output
job.setOutputFormatClass(TextOutputFormat.class);
// here you can set the path of your input
SequenceFileInputFormat.addInputPath(job, new Path("files/toMap/"));
// this deletes possible output paths to prevent job failures
FileSystem fs = FileSystem.get(conf);
Path out = new Path("files/out/processed/");
fs.delete(out, true);
// finally set the empty out path
TextOutputFormat.setOutputPath(job, out);

// this waits until the job completes and prints debug out to STDOUT or whatever
// has been configured in your log4j properties.
job.waitForCompletion(true);

如果您使用的是外部群集,则必须通过以下方式将以下信息放入配置中:

// this should be like defined in your mapred-site.xml
conf.set("mapred.job.tracker", "jobtracker.com:50001"); 
// like defined in hdfs-site.xml
conf.set("fs.default.name", "hdfs://namenode.com:9000");

hadoop-core.jar位于应用程序容器类路径中时,这应该没问题。 但我认为你应该在你的网页上加上某种进度指示器,因为完成一个hadoop工作可能需要几分钟到几个小时;)

对于YARN(> Hadoop 2)

对于YARN,需要设置以下配置。

// this should be like defined in your yarn-site.xml
conf.set("yarn.resourcemanager.address", "yarn-manager.com:50001"); 

// framework is now "yarn", should be defined like this in mapred-site.xm
conf.set("mapreduce.framework.name", "yarn");

// like defined in hdfs-site.xml
conf.set("fs.default.name", "hdfs://namenode.com:9000");

答案 1 :(得分:7)

从java Web应用程序(Servlet)调用MapReduce作业

您可以使用Java API从Web应用程序调用MapReduce作业。这是从servlet调用MapReduce作业的一个小例子。步骤如下:

第1步:首先创建一个MapReduce驱动程序servlet类。同时开发地图&减少服务。这是一个示例代码段:

<强> CallJobFromServlet.java

    public class CallJobFromServlet extends HttpServlet {

    protected void doPost(HttpServletRequest request,HttpServletResponse response) throws ServletException, IOException {

    Configuration conf = new Configuration();
    // Replace CallJobFromServlet.class name with your servlet class
        Job job = new Job(conf, " CallJobFromServlet.class"); 
        job.setJarByClass(CallJobFromServlet.class);
        job.setJobName("Job Name");
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        job.setMapperClass(Map.class); // Replace Map.class name with your Mapper class
        job.setNumReduceTasks(30);
        job.setReducerClass(Reducer.class); //Replace Reduce.class name with your Reducer class
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);

        // Job Input path
        FileInputFormat.addInputPath(job, new  
        Path("hdfs://localhost:54310/user/hduser/input/")); 
        // Job Output path
        FileOutputFormat.setOutputPath(job, new 
        Path("hdfs://localhost:54310/user/hduser/output")); 

        job.waitForCompletion(true);
   }
}

第2步:将所有相关jar(hadoop,特定于应用程序的jar)文件放在Web服务器的lib文件夹中(例如Tomcat)。这对于访问Hadoop配置是必需的(hadoop'conf'文件夹具有配置xml文件,即core-site.xml,hdfs-site.xml等)。只需将jar从hadoop lib文件夹复制到web服务器(tomcat)lib目录即可。 jar名称列表如下:

1.  commons-beanutils-1.7.0.jar
2.  commons-beanutils-core-1.8.0.jar
3.  commons-cli-1.2.jar
4.  commons-collections-3.2.1.jar
5.  commons-configuration-1.6.jar
6.  commons-httpclient-3.0.1.jar
7.  commons-io-2.1.jar
8.  commons-lang-2.4.jar
9.  commons-logging-1.1.1.jar
10. hadoop-client-1.0.4.jar
11. hadoop-core-1.0.4.jar
12. jackson-core-asl-1.8.8.jar
13. jackson-mapper-asl-1.8.8.jar
14. jersey-core-1.8.jar

第3步:将您的Web应用程序部署到Web服务器中(在Tomcat的“webapps”文件夹中)。

第4步:创建一个jsp文件,并在表单操作属性中链接servlet类(CallJobFromServlet.java)。这是一个示例代码段:

<强>的index.jsp

<form id="trigger_hadoop" name="trigger_hadoop" action="./CallJobFromServlet ">
      <span class="back">Trigger Hadoop Job from Web Page </span> 
      <input type="submit" name="submit" value="Trigger Job" />      
</form>

答案 2 :(得分:1)

已经在hadoop示例中实现的作业的另一种方式,也需要导入hadoop jar ..然后用适当的String []参数调用所需作业类的静态main函数

答案 3 :(得分:1)

由于map和reduce在不同的机器上运行,因此所有引用的类和jar必须从一台机器移动到另一台机器。

如果您有包装jar,并在桌面上运行,@ ThomasJungblut的回答是可以的。但如果您在Eclipse中运行,请右键单击您的类并运行,它不起作用。

而不是:

job.setJarByClass(Mapper.class);

使用:

job.setJar("build/libs/hdfs-javac-1.0.jar");

同时,您的jar清单必须包含Main-Class属性,这是您的主要类。

对于gradle用户,可以将这些行放在build.gradle中:

jar {
manifest {
    attributes("Main-Class": mainClassName)
}}

答案 4 :(得分:0)

如果没有涉及hadoop-core库(或者确实像@ThomasJungblut说的那样,为什么你会想要),我想不出很多方法可以做到这一点。

但是如果你绝对必须,你可以设置一个带有工作流程的Oozie服务器,然后使用Oozie webservice接口将工作流程提交给Hadoop。

同样,对于可以使用Thomas的答案(包括hadoop-core jar并使用他的代码片段)解决的问题,这似乎很多工作

答案 5 :(得分:0)

你可以这样做

public class Test {

    public static void main(String[] args) throws Exception {
        int res = ToolRunner.run(new Configuration(), new YourJob(), args);
        System.exit(res);

    }