MongoDB Hadoop流媒体适配器

时间:2012-08-03 22:06:24

标签: mongodb hadoop

尝试使用您的帖子: https://gist.github.com/2884606

我尝试运行命令:

hadoop jar mongo-hadoop-streaming-assembly * .jar -mapper mapper.rb -reducer reducer.rb -inputURI mongodb://127.0.0.1/twitter.in -outputURI mongodb://127.0.0.1/twitter。出

获取以下错误: 线程“main”中的异常java.lang.ClassNotFoundException:com.mongodb.hadoop.streaming.MongoStreamJob

我编译了jar mongo-hadoop-streaming-assembly * .jar但它不包含上面的类。

我尝试使用-libjar来包含类的存档,但是hadoop没有识别它。

还尝试导出CLASS_PATH以包含在上面。

用于构建Hadoop Streaming https://github.com/mongodb/mongo-hadoop/tree/master/streaming

./ sbt mongo-hadoop-streaming / assembly

1 个答案:

答案 0 :(得分:3)

Apache Hadoop 1.0.3不支持流式传输。 Apache Hadoop版本控制方案相当令人困惑,因为1.0.x实际上是基于旧版本(0.20)而不是当前的dev分支(0.23),它将成为Apache Hadoop 2.0(!)。

有关支持的Hadoop版本和限制的详细信息,请参阅Building the Adapter: Streaming Support

开始使用的更简单的Hadoop版本是Cloudera Release 3,它具有包下载以及预先构建的虚拟机。