如何使用hbase作为hadoop流媒体作业的来源

时间:2014-03-28 05:23:50

标签: python hadoop hbase hadoop-streaming

有没有办法使用Hbase表作为Hadoop流媒体作业的来源?具体来说,我想运行用Python编写的Hadoop流媒体作业。当输入被指定为HDFS上的文件夹时,这很有效。但是我找不到任何关于从Hbase表中读取数据的文档。

支持吗?或者我将不得不经历编写java代码的困难,首先从Hbase获取数据到HDFS,然后运行流媒体工作?

我正在使用Cloudera的Hbase 0.94。

(有一个类似的问题already present here。但它指的是第三方解决方案,没有积极贡献。我希望这将在Hbase中得到支持。)

1 个答案:

答案 0 :(得分:0)

我会使用Pig加载数据,然后将其提供给流式Python应用程序。

见这里: http://pig.apache.org/docs/r0.12.0/func.html#HBaseStorage http://pig.apache.org/docs/r0.12.0/basic.html#stream