运行一个hadoop工作

时间:2013-09-05 23:13:27

标签: hadoop jar

这是我第一次在hadoop上运行作业并从WordCount示例开始。为了完成我的工作,我',使用这个命令

hduser@ubuntu:/usr/local/hadoop$ bin/hadoop jar hadoop*examples*.jar wordcount /user/hduser/gutenberg /user/hduser/gutenberg-output

我想我们应该在/ usr / local / hadoop中复制jar文件。我的第一个问题是hadoop * examples *的含义是什么?如果我们想在另一个位置找到我们的jar文件,例如/ home / user / WordCountJar,我该怎么办?感谢您的帮助。

2 个答案:

答案 0 :(得分:1)

示例只是通配符扩展,用于说明文件名中的不同版本号。例如:hadoop-0.19.2-examples.jar

您可以使用jar的完整路径:

bin / hadoop jar /home/user/hadoop-0.19.2-examples.jar wordcount / user / hduser / gutenberg / user / hduser / gutenberg-output

编辑:在提交时,我的帖子中删除了围绕单词示例的星号。

答案 1 :(得分:1)

I think we should copy the jar file in /usr/local/hadoop

不是强制性的。但是如果你的罐子放在其他位置,你需要在运行工作时指定完整的路径。

My first question is that what is the meaning of hadoop*examples*?

hadoop * examples * 是包含MR作业以及其他依赖项的jar包的名称。在这里, * 表示它可以是任何版本。不是特别0.19.2或其他。但是,我认为它应该是 hadoop-examples - * .jar而不是 hadoop * examples * .jar

  

如果我们想在另一个位置找到我们的jar文件,例如   / home / user / WordCountJar,我应该怎么做?

如果您的jar存在于执行命令所在目录以外的目录中,则需要指定jar的完整路径。说,

bin / hadoop jar /home/user/WordCountJar/hadoop-*-examples.jar wordcount / user / hduser / gutenberg / user / hduser / gutenberg-output