应用错误收集

带有本地目录输入和HBase输出的脚本MapReduce

时间：2014-08-08 13:11:55

标签： hadoop mapreduce hbase hadoop-streaming

有时我想要执行一些简单的轻量级MapReduce。＆＃34;简单＆＃34;意味着它使用非常简单的算法，并且＆＃34;轻量级＆＃34;意味着我可以用一些脚本语言（或类似的东西）用几行来实现它。

我目前的任务是从本地文件系统上的目录中获取文件中的数据，进行最少的处理，并将其写入HBase。 Hadoop Streaming可以从本地文件系统读取。但它无法写入HBase。有hadoop-hbase-streaming项目声明了这样的功能。不幸的是，我无法让它发挥作用。我想，这是因为最后一次提交到图书馆存储是在2008年。我的任务看起来非常普遍，我想知道为什么自2008年以来没有对 hadoop-hbase-streaming 库进行任何更新。我想，现在还有其他一些方法可以实现我的目的。你能告诉我，这些方法是什么？

1 个答案:

答案 0 :(得分：1)

我一直在编写MR，它将本地文件系统中的数据加载到旧版Hadoop（Hadoop 1，我不记得哪个版本）的HBase中，现在我不得不重写它，因为Hadoop库完全不同（目前正在使用） CDH5.0.1）。所以我不奇怪hadoop hbase流不通用。但我发现，对于我来说，如何将数据从本地目录上传到HBase的最简单，最简单的方法是使用Pig。我尝试了这个例子，它对我来说很完美：

Using Pig to Bulk Load Data Into HBase

不幸的是，我不知道任何其他更容易的解决方案......祝你好运并希望它有所帮助