如何从HDFS执行map reduce程序(例如wordcount)并查看输出?

时间:2013-07-08 06:20:27

标签: hadoop

我是Hadoop的新手。我在eclipse中有一个简单的wordcount程序,它接受输入文件,然后显示输出。但我需要从 HDFS 执行相同的程序。我已经为wordcount程序创建了一个JAR文件。 任何人都可以让我知道如何继续吗?

2 个答案:

答案 0 :(得分:2)

您需要设置群集,即使是单个节点群集也是如此。然后,您可以从hadoop命令行运行.jar:

  

jar

     

运行一个jar文件。用户可以将他们的Map Reduce代码捆绑在一个jar中   文件并使用此命令执行它。

     

Usage: hadoop jar <jar> [mainClass] args...

     

通过此命令运行流式传输作业。可以参考示例   来自Streaming examples

     

还使用jar命令运行字数统计示例。可以参考   来自Wordcount example

答案 1 :(得分:0)

最初你需要设置一个像Remus讨论的hadoop集群。

Single Node SetUpMulti Node SetUp是开始时的两个好方法。

完成设置后,启动hadoop守护进程并将输入文件复制到任何hdfs目录中。

准备你的程序罐。

使用hadoop jar <you jar name> <your main class> <input path><output directory path>

在终端上运行jar

(jar参数取决于你的程序)