Hadoop / Hbase的批量加载性能提升

时间:2012-07-12 14:26:42

标签: hadoop mapreduce hbase


我通过hadoop多节点集群中的importsv工具将1000万条记录加载到Hbase表中。现在,这项任务耗时5分钟。但我想知道如何才能提高这一性能。 importtsv工具似乎根本不使用reducer。我想知道我是否可以强迫它使用减速器,它可以提高性能或任何其他方式,你认为会提高性能将不胜感激。
谢谢。

3 个答案:

答案 0 :(得分:1)

在性能方面,没有简单的答案。如果5分钟等于网络速度或硬盘速度,则必须将源数据移动到其他位置或更改硬件。

我不知道进口。我建议你尝试多路加载。看看Sqoop。

答案 1 :(得分:1)

使用HfileOutPutFormat,completeBulkLoadTool尝试Importtsv。

答案 2 :(得分:0)

使用HFileOutputFormatCompleteBulkLoad

可以获得最佳的HBase批量加载性能

检查here