尝试使用您的帖子: https://gist.github.com/2884606
我尝试运行命令:
hadoop jar mongo-hadoop-streaming-assembly * .jar -mapper mapper.rb -reducer reducer.rb -inputURI mongodb://127.0.0.1/twitter.in -outputURI mongodb://127.0.0.1/twitter。出
获取以下错误: 线程“main”中的异常java.lang.ClassNotFoundException:com.mongodb.hadoop.streaming.MongoStreamJob
我编译了jar mongo-hadoop-streaming-assembly * .jar但它不包含上面的类。
我尝试使用-libjar来包含类的存档,但是hadoop没有识别它。
还尝试导出CLASS_PATH以包含在上面。
用于构建Hadoop Streaming https://github.com/mongodb/mongo-hadoop/tree/master/streaming
./ sbt mongo-hadoop-streaming / assembly
答案 0 :(得分:3)
Apache Hadoop 1.0.3不支持流式传输。 Apache Hadoop版本控制方案相当令人困惑,因为1.0.x实际上是基于旧版本(0.20)而不是当前的dev分支(0.23),它将成为Apache Hadoop 2.0(!)。
有关支持的Hadoop版本和限制的详细信息,请参阅Building the Adapter: Streaming Support。
开始使用的更简单的Hadoop版本是Cloudera Release 3,它具有包下载以及预先构建的虚拟机。