我是Hadoop的新手。我在eclipse中有一个简单的wordcount程序,它接受输入文件,然后显示输出。但我需要从 HDFS 执行相同的程序。我已经为wordcount程序创建了一个JAR文件。 任何人都可以让我知道如何继续吗?
答案 0 :(得分:2)
您需要设置群集,即使是单个节点群集也是如此。然后,您可以从hadoop命令行运行.jar:
运行一个jar文件。用户可以将他们的Map Reduce代码捆绑在一个jar中 文件并使用此命令执行它。
Usage: hadoop jar <jar> [mainClass] args...
通过此命令运行流式传输作业。可以参考示例 来自Streaming examples
还使用jar命令运行字数统计示例。可以参考 来自Wordcount example
答案 1 :(得分:0)
最初你需要设置一个像Remus讨论的hadoop集群。
Single Node SetUp和Multi Node SetUp是开始时的两个好方法。
完成设置后,启动hadoop守护进程并将输入文件复制到任何hdfs目录中。
准备你的程序罐。
使用hadoop jar <you jar name> <your main class> <input path><output directory path>
(jar参数取决于你的程序)