Question

在Hbase中，我将hbase.hregion.max.filesize配置为10GB。如果单行超过10GB大小，则该行不会进入2个区域，因为Hbase拆分是基于行键完成的

例如，如果我有一行有1000列，每列在25MB到40 MB之间变化。因此有机会超出定义的区域大小。如果是这种情况，单独使用rowkey或使用列限定符读取数据时，它将如何影响性能？

Answer 1

首先，Hbase不是用于存储单行10GB的大数据（非常假设）。

我希望你没有在一行中保存10GB（只是想保存它）

会对性能产生不利影响。您可以考虑其他方法，例如在分区结构中将这么多数据存储在hdfs中。

一般来说，这些是tips for generally applicable batch clients like Mapreduce Hbase jobs

Scan scan = new Scan();
scan.setCaching(500); //1 is the default in Scan, which will be bad for MapReduce jobs
scan.setCacheBlocks(false);  // don't set to true for MR jobs

可以查看Performance

Hbase中的单行超过hbase.hregion.max.filesize时的性能问题

1 个答案: