在Apache Hadoop 2.0中映射减少作业

时间:2014-02-15 13:39:10

标签: java apache hadoop mapreduce hadoop-streaming

我正在关注设置多节点群集和运行示例MapReduce程序的Michael Noll教程。我正在设置Hadoop 2.2.0版。 Hadoop 2.2.0中没有 contrib 目录。我使用当前目录中的find命令搜索了jar。 搜索结果是

enter image description here

我的问题是如何在Hadoop多节点群集环境中运行mapreduce程序?

2 个答案:

答案 0 :(得分:0)

在多节点集群上运行MapReduce程序与单节点相同。在链接:Learnig hadoop中给出了运行0.23及以上(甚至2.2.0)的样本mapreduce程序的步骤。 这里给出了Wordcount程序。即使你可以使用相同的jar运行pi估计

答案 1 :(得分:0)

我们有一个4节点的hadoop-2.2.0群集。

能够从hadoop根文件夹(在我们的例子中是/ usr / local / hadoop)中使用以下命令行从命令行运行wordcount测试:

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /user/
hduser/in /user/hduser/out

注意:

- folder name is different under hadoop: /share/hadoop/mapreduce/

我们创建了hduser / in文件夹(hdfs dfs -mkdir -p / user / hduser / in),将wordcount测试文件复制到它(hdfs dfs -copyFromLocal wc_test.txt / user / hduser / in)并指定了输出文件夹(不应该存在)。