Question

我试图在AWS上运行mapreduce代码示例。这是代码示例https://github.com/ScaleUnlimited/wikipedia-ngrams

的链接

但是，对于这些事情我是个新手。实际上，他们确实在自述文件中写了我应该从代码示例中构建一个作业jar文件。但是，我仍然没有得到如何建立一个工作罐。

我还关注这些视频，解释如何在EMR中运行工作http://www.youtube.com/watch?v=cAZur5maWZE&list=PL080E1DEBCE5388F3

但他们并没有告诉我们如何让这个重要的jar文件开始工作。

任何帮助

Answer 1

与普通java程序（http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html）相同：

$ javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar -d wordcount_classes WordCount.java 
$ jar -cvf /usr/joe/wordcount.jar -C wordcount_classes/ .

或者如果它是一个maven项目：

$ mvn clean package

或特定于https://github.com/ScaleUnlimited/wikipedia-ngrams（参见自述文件）：

$ ant clean job

Answer 2

您可以在eclipse中创建java文件，将hadoop添加到构建路径，然后将其导出为jar。有关详细信息，请参阅本教程中的“6.1创建Jar文件”：Introduction to Amazon Web Services and MapReduce Jobs

有两种方法可以通过控制台或CLI启动作业流程，请查看上面教程中的6.2,6.3。

如何在AWS中为hadoop Mapreduce作业构建作业jar

2 个答案: