无法使用hadoop流式读取Mahout生成的序列文件

时间:2011-11-30 21:28:18

标签: mahout hadoop-streaming

我正在尝试流式传输其中一个Mahout示例生成的序列文件,以查看其内容:

    hadoop jar hadoop-streaming-0.20.2-cdh3u0.jar \
    -input /tmp/mahout-work-me/20news-bydate/bayes-test-input-output/ \
    -output /tmp/me/mm \
    -mapper "cat" \
    -reducer "wc -l" \
    -inputformat SequenceFileAsTextInputFormat

工作成功开始并最终以:

消亡
11/11/30 21:08:39 INFO streaming.StreamJob:  map 0%  reduce 0%
11/11/30 21:09:17 INFO streaming.StreamJob:  map 100%  reduce 100%
java.lang.RuntimeException: java.io.IOException: WritableName can't load class: org.apache.mahout.common.StringTuple

我想知道我的流式jar文件是否有问题,如果II需要明确指向具有此类的Mahout jar(尝试将HADOOP_CLASSPATH设置为mahout-core-0.5-cdh3u2.jar的位置但不起作用),或者甚至是别的东西?

感谢任何帮助。感谢。

1 个答案:

答案 0 :(得分:2)

添加此选项:

-libjars mahout-core-0.5-cdh3u2.jar