在单个作业中批量加载到多个HBase表

时间:2013-09-29 14:47:52

标签: mapreduce hbase

我想使用单个mapreduce作业将数据批量加载到多个表。由于数据量很高,迭代数据集两次并使用多个jobs加载会很费时。有什么办法可以做到这一点吗?提前谢谢。

1 个答案:

答案 0 :(得分:0)

我正在使用Hbase。但我还不需要批量加载。但是我偶然发现了这篇可能对你有帮助的文章。

http://hbase.apache.org/book/arch.bulk.load.html

批量加载功能使用MapReduce作业以HBase的内部数据格式输出表数据,然后直接将生成的StoreFiles加载到正在运行的集群中。与仅使用HBase API相比,使用批量加载将使用更少的CPU和网络资源。