将大型(200 GB)Hbase表加载到RDD中,而无需通过Hbase扫描

时间:2015-10-11 06:07:42

标签: hbase

我想将一个大的(200 GB)Hbase表加载到RDD中而不经过Hbase扫描,即直接将HFile读入RDD。

如果您可以共享任何示例/示例代码(或带有示例的网页链接),这将显示使用HFileInputformat,因为我发现它们指向HFileInputformat的源代码。

不确定2012/2013年提及的危险是否仍然适用 - http://qnalist.com/questions/155178/hfileinputformat-for-mapreduce

1 个答案:

答案 0 :(得分:0)

我发现这是.94。 https://gist.github.com/ashwanthkumar/5133733

但危险仍然存在。如果同时发生压缩或区域分割,则会影响您的结果。