我们的研究小组已经建立并运行了Hadoop和HBase。
最近我使用Hadoop流(只有映射器)来处理数据,我希望使用HBase作为数据接收器。我觉得我可以设置-outputformat到TableOutFormat。但在搜索网页一段时间后,我发现具体的操作可能需要很长时间才能搞清楚。
以下是我的试用版:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-outputformat HBaseLibDir/TableOutFormat \
-mapper myMapperScript \
-numReduceTasks 0
有经验的人可以教我怎么做吗?包括myMapperScript中要更改的内容,以及传入以初始化流作业的参数。
答案 0 :(得分:2)
来自HBase邮件列表的答案:
不能将Hadoop流输出(直接)发送到HBase。使用REST / Thrift 而是API。