有没有办法使用Hbase表作为Hadoop流媒体作业的来源?具体来说,我想运行用Python编写的Hadoop流媒体作业。当输入被指定为HDFS上的文件夹时,这很有效。但是我找不到任何关于从Hbase表中读取数据的文档。
支持吗?或者我将不得不经历编写java代码的困难,首先从Hbase获取数据到HDFS,然后运行流媒体工作?
我正在使用Cloudera的Hbase 0.94。
(有一个类似的问题already present here。但它指的是第三方解决方案,没有积极贡献。我希望这将在Hbase中得到支持。)
答案 0 :(得分:0)
我会使用Pig加载数据,然后将其提供给流式Python应用程序。
见这里: http://pig.apache.org/docs/r0.12.0/func.html#HBaseStorage http://pig.apache.org/docs/r0.12.0/basic.html#stream