如何将HBase表以Parquet格式移动到HDFS?

时间:2016-05-04 09:31:07

标签: hadoop hbase parquet hfile

我必须构建一个工具,将处理我们的数据存储从HBase(HFiles)到HDFS的镶木地板格式。

请建议将数据从HBase表移动到Parquet表的最佳方法之一。

我们必须将4亿条记录从HBase移至Parquet。如何实现这一目标以及移动数据的最快方式是什么?

提前致谢。

此致

Pardeep Sharma。

2 个答案:

答案 0 :(得分:1)

请查看此项目tmalaska/HBase-ToHDFS 它读取HBase表并将其写为Text,Seq,Avro或Parquet

镶木地板的示例用法:

Exports the data to Parquet

hadoop jar HBaseToHDFS.jar ExportHBaseTableToParquet exportTest c export.parquet false avro.schema

答案 1 :(得分:1)

我最近开了一个针对HBase的补丁,解决了你所描述的问题。 看看这里:https://github.com/ibm-research-ireland/hbaquet