带有本地目录输入和HBase输出的脚本MapReduce

时间:2014-08-08 13:11:55

标签: hadoop mapreduce hbase hadoop-streaming

有时我想要执行一些简单的轻量级MapReduce。 "简单"意味着它使用非常简单的算法,并且"轻量级"意味着我可以用一些脚本语言(或类似的东西)用几行来实现它。

我目前的任务是从本地文件系统上的目录中获取文件中的数据,进行最少的处理,并将其写入HBase。 Hadoop Streaming可以从本地文件系统读取。但它无法写入HBase。有hadoop-hbase-streaming项目声明了这样的功能。不幸的是,我无法让它发挥作用。我想,这是因为最后一次提交到图书馆存储是在2008年。我的任务看起来非常普遍,我想知道为什么自2008年以来没有对 hadoop-hbase-streaming 库进行任何更新。我想,现在还有其他一些方法可以实现我的目的。你能告诉我,这些方法是什么?

1 个答案:

答案 0 :(得分:1)

我一直在编写MR,它将本地文件系统中的数据加载到旧版Hadoop(Hadoop 1,我不记得哪个版本)的HBase中,现在我不得不重写它,因为Hadoop库完全不同(目前正在使用) CDH5.0.1)。所以我不奇怪hadoop hbase流不通用。但我发现,对于我来说,如何将数据从本地目录上传到HBase的最简单,最简单的方法是使用Pig。我尝试了这个例子,它对我来说很完美:

Using Pig to Bulk Load Data Into HBase

不幸的是,我不知道任何其他更容易的解决方案......祝你好运并希望它有所帮助