我想知道如何以仅存储每个单元的第一个版本的方式配置Hbase?假设以下Htable:
row_key cf1:c1 timestamp
----------------------------------------
1 x t1
将("1","cf1:c2",t2)
置于ColumnDescriptor.DEFAULT_VERSIONS = 2
方案后,提到的Htable变为:
row_key cf1:c1 timestamp
----------------------------------------
1 x t1
1 x t2
其中t2>t1
。
我的问题是如何以第一版单元格是唯一可以存储和检索的版本的方式更改此方案。我的意思是在提供的示例中,唯一的版本是't1'
一个!因此,我想以忽略重复插入的方式更改hbase。
我知道将HERS设置为1并基于Long.MAX_VALUE - System.currentTimeMillis()
设置将解决我的问题,但我不知道它是最好的解决方案吗?!将tstamp更改为Long.MAX_VALUE - System.currentTimeMillis()
有什么问题?它有任何性能问题吗?
答案 0 :(得分:3)
我能想到两种策略:
将Htable设置为VERSIONS
为1,基于Long.MAX_VALUE - System.currentTimeMillis()
设置放置通常会有效,并且没有任何重大的性能问题。
写信:
System.currentTimeMillis()
的最低值的客户端编写的单元格。应该注意的是,这可能实际上并不是首先尝试写入单元的机器,因为hbase客户端可能不同步。 阅读:
要通过原子性获得真正的排序,意味着只有第一个到达区域服务器的写入将成功,您可以使用checkAndPut
操作:
来自docs:
public boolean checkAndPut(byte[] row, byte[] family, byte[] qualifier, byte[] value, Put put) throws IOException
以原子方式检查行/系列/限定符值是否与预期值匹配 值。如果是的话,它会添加看跌期权。如果传递的值为null,则 检查是否缺少列(即:不存在)`
因此,通过将value
设置为null
,Put
只有在单元格不存在时才会成功。如果您的Put成功,那么返回值将为true。这给出了真正的原子性,但处于写入性能成本。
写信:
Get
。一旦确认不存在,则发出看跌期权。您可以想象,这对每次写入都有相当大的性能影响,因为现在每次写入都涉及读取和锁定。checkAndPut
无法批量处理这类checkAndMutate
操作,因为每个Put都需要自己检查。这意味着每个put都需要是一个单独的请求,这意味着您在批量写入时也将支付延迟成本。阅读:
如果真正的顺序真的很重要,或者您可能需要在写入hbase之后或之前读取每一行(例如,为了确定您的写入是否成功),那么您最好使用策略2,否则,在所有其他情况下,我建议使用策略1,因为它的写入性能要好得多。在这种情况下,只需确保您的客户端正确同步。
答案 1 :(得分:0)
您可以使用Put
插入Long.MAX_VALUE - timestamp
并将表配置为仅存储1个版本(最大版本=> 1)。这样,扫描将返回第一个(最早的)Put,因为所有连续Puts的时间戳值都会更小。