Dumbo mapreduce for hadoop

时间:2015-03-02 18:23:12

标签: hadoop mapreduce

我正在尝试在hadoop集群上运行Dumbo MapReduce命令,但收到以下错误。

15/03/02 17:55:28 ERROR streaming.StreamJob:工作不成功。错误:NA 15/03/02 17:55:28 INFO streaming.StreamJob:killJob ... 流命令失败!

似乎我需要提供Hadoop流媒体jar的路径。 我怎样才能找到这个以及什么是Hadoop流媒体jar?

我的dumbo命令如下:

dumbo start test_dumbo6.py -hadoop / apps / hadoop / -input /storage/user/jj/json.log -output ipcounts2

1 个答案:

答案 0 :(得分:0)

Hadoop Streaming上的文档:http://hadoop.apache.org/docs/r1.2.1/streaming.html

Hadoop流是hadoop核心的一部分,因此应该可以在$ Hadoop_HOME / lib目录中找到。

可以通过添加其他参数将此库添加到您的作业中:

-libjar <path_to_jar>