Simultaneously Bulk Load to Multiple HBase Tables from MapReduce

时间:2015-07-31 20:25:04

标签: hadoop hbase

Similar to MultiTableOutputFormat where you can write to Multiple HBase tables using put. Is there an inbuilt way to generate multiple HFiles without looping through the input multiple times?

3 个答案:

答案 0 :(得分:0)

This is the nearest to your requirement. They have given the code too to handle multiple output format. One more here.Hope it helps

答案 1 :(得分:0)

以下是我的经验,可能因您运行的Hadoop版本而异。

首先,您可能不想尝试一次写出多个HFile。 HFileOutputFormat不支持MultipleOutputs实用程序设置的某些设置。它可能有用,它可能不依赖于Hadoop的版本以及如何命名列族。

您可以做的是通过MutlipleOutputs输出KeyValues序列文件。为每个列族使用一个序列文件。然后,对于每个序列文件,使用M / R在序列文件上执行标识映射,并使用HFileOutputFormat。

答案 2 :(得分:0)