我们正在将HBase用于小型对象。我注意到HBase存储空间太大了。原始数据与HBase数据之间的比率达到了5倍。
仅供参考,我们的数据由小物体组成。每个对象大约有20个字段(存储在HBase表的每个单元格中)。由于每个字段的平均大小值为20个字节,因此HBase用于存储值(列族,列限定符,时间戳等)的数据开销可以使HBase文件显着增大。
目前,我们正在使用DATA_BLOCK_ENCODING算法(FAST_DIFF)来节省一些空间。但是,我们无法将其降低到接近2倍的位置(与原始数据相比)。
你们有没有遇到HBase的这种行为?你的建议是什么?