我必须构建一个工具,将处理我们的数据存储从HBase(HFiles)到HDFS的镶木地板格式。
请建议将数据从HBase表移动到Parquet表的最佳方法之一。
我们必须将4亿条记录从HBase移至Parquet。如何实现这一目标以及移动数据的最快方式是什么?
提前致谢。
此致
Pardeep Sharma。
答案 0 :(得分:1)
请查看此项目tmalaska/HBase-ToHDFS 它读取HBase表并将其写为Text,Seq,Avro或Parquet
hadoop jar HBaseToHDFS.jar ExportHBaseTableToParquet exportTest c export.parquet false avro.schema
答案 1 :(得分:1)
我最近开了一个针对HBase的补丁,解决了你所描述的问题。 看看这里:https://github.com/ibm-research-ireland/hbaquet