Question

我正在尝试在hadoop集群上运行Dumbo MapReduce命令，但收到以下错误。

15/03/02 17:55:28 ERROR streaming.StreamJob：工作不成功。错误：NA 15/03/02 17:55:28 INFO streaming.StreamJob：killJob ... 流命令失败！

似乎我需要提供Hadoop流媒体jar的路径。我怎样才能找到这个以及什么是Hadoop流媒体jar？

我的dumbo命令如下：

dumbo start test_dumbo6.py -hadoop / apps / hadoop / -input /storage/user/jj/json.log -output ipcounts2

Answer 1

Hadoop流是hadoop核心的一部分，因此应该可以在$ Hadoop_HOME / lib目录中找到。

可以通过添加其他参数将此库添加到您的作业中：

-libjar <path_to_jar>