如何在AWS中为hadoop Mapreduce作业构建作业jar

时间:2014-03-27 12:23:02

标签: amazon-web-services emr

我试图在AWS上运行mapreduce代码示例。这是代码示例https://github.com/ScaleUnlimited/wikipedia-ngrams

的链接

但是,对于这些事情我是个新手。实际上,他们确实在自述文件中写了我应该从代码示例中构建一个作业jar文件。但是,我仍然没有得到如何建立一个工作罐。

我还关注这些视频,解释如何在EMR中运行工作http://www.youtube.com/watch?v=cAZur5maWZE&list=PL080E1DEBCE5388F3

但他们并没有告诉我们如何让这个重要的jar文件开始工作。

任何帮助

2 个答案:

答案 0 :(得分:2)

与普通java程序(http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html)相同:

$ javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar -d wordcount_classes WordCount.java 
$ jar -cvf /usr/joe/wordcount.jar -C wordcount_classes/ .

或者如果它是一个maven项目:

$ mvn clean package

或特定于https://github.com/ScaleUnlimited/wikipedia-ngrams(参见自述文件):

$ ant clean job

答案 1 :(得分:0)

您可以在eclipse中创建java文件,将hadoop添加到构建路径,然后将其导出为jar。有关详细信息,请参阅本教程中的“6.1创建Jar文件”:Introduction to Amazon Web Services and MapReduce Jobs

有两种方法可以通过控制台或CLI启动作业流程,请查看上面教程中的6.2,6.3。