在Hbase中,我将hbase.hregion.max.filesize
配置为10GB。如果单行超过10GB大小,则该行不会进入2个区域,因为Hbase拆分是基于行键完成的
例如,如果我有一行有1000列,每列在25MB到40 MB之间变化。因此有机会超出定义的区域大小。如果是这种情况,单独使用rowkey或使用列限定符读取数据时,它将如何影响性能?
答案 0 :(得分:2)
首先,Hbase不是用于存储单行10GB的大数据(非常假设)。
我希望你没有在一行中保存10GB(只是想保存它)
会对性能产生不利影响。您可以考虑其他方法,例如在分区结构中将这么多数据存储在hdfs中。
一般来说,这些是tips for generally applicable batch clients like Mapreduce Hbase jobs
Scan scan = new Scan();
scan.setCaching(500); //1 is the default in Scan, which will be bad for MapReduce jobs
scan.setCacheBlocks(false); // don't set to true for MR jobs
可以查看Performance