我正在尝试在hadoop集群上运行Dumbo MapReduce命令,但收到以下错误。
15/03/02 17:55:28 ERROR streaming.StreamJob:工作不成功。错误:NA 15/03/02 17:55:28 INFO streaming.StreamJob:killJob ... 流命令失败!
似乎我需要提供Hadoop流媒体jar的路径。 我怎样才能找到这个以及什么是Hadoop流媒体jar?
我的dumbo命令如下:
dumbo start test_dumbo6.py -hadoop / apps / hadoop / -input /storage/user/jj/json.log -output ipcounts2
答案 0 :(得分:0)
Hadoop Streaming上的文档:http://hadoop.apache.org/docs/r1.2.1/streaming.html
Hadoop流是hadoop核心的一部分,因此应该可以在$ Hadoop_HOME / lib目录中找到。
可以通过添加其他参数将此库添加到您的作业中:
-libjar <path_to_jar>