应用错误收集

如何从HDFS执行map reduce程序（例如wordcount）并查看输出？

时间：2013-07-08 06:20:27

标签： hadoop

我是Hadoop的新手。我在eclipse中有一个简单的wordcount程序，它接受输入文件，然后显示输出。但我需要从 HDFS 执行相同的程序。我已经为wordcount程序创建了一个JAR文件。任何人都可以让我知道如何继续吗？

2 个答案:

答案 0 :(得分：2)

您需要设置群集，即使是单个节点群集也是如此。然后，您可以从hadoop命令行运行.jar：

jar

运行一个jar文件。用户可以将他们的Map Reduce代码捆绑在一个jar中   文件并使用此命令执行它。

Usage: hadoop jar <jar> [mainClass] args...

通过此命令运行流式传输作业。可以参考示例   来自Streaming examples

还使用jar命令运行字数统计示例。可以参考   来自Wordcount example

答案 1 :(得分：0)

最初你需要设置一个像Remus讨论的hadoop集群。

Single Node SetUp和Multi Node SetUp是开始时的两个好方法。

完成设置后，启动hadoop守护进程并将输入文件复制到任何hdfs目录中。

准备你的程序罐。

使用hadoop jar <you jar name> <your main class> <input path><output directory path>

在终端上运行jar

（jar参数取决于你的程序）