我正在使用cassandra,我想获取介于给定时间戳范围之间的记录。对此有什么疑问?我正在使用节俭客户端。
我尝试了这段代码。
String columnFamily = "UserColumnFamily";
String keyspace="Enterprise";
final String UTF8 = "UTF8";
String keyUserid="1";
TTransport tr = new TSocket("10.10.10.104", 9160);
TProtocol proto = new TBinaryProtocol(tr);
Cassandra.Client client = new Cassandra.Client(proto);
SlicePredicate predicate = new SlicePredicate();
SliceRange sliceRange = new SliceRange();
String startkey="1293443184521000";
String finishkey ="1293445102333000";
sliceRange.setStart(new byte[0]);
sliceRange.setFinish(new byte[0]);
predicate.setSlice_range(sliceRange);
ColumnParent parent = new ColumnParent(columnFamily);
try {
tr.open();
List<KeySlice> results=client.get_range_slice(keyspace,parent,predicate,startkey,finishkey,100, ConsistencyLevel.ONE);
for (KeySlice result : results) {
Column column = (Column) result.columns;
System.out.println(new String(column.name,UTF8) + " ->> "
+ new String(column.value,UTF8));
}
tr.close();
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
但它引发了这个错误:
InvalidRequestException(why:start key's md5 sorts after end key's md5.
This is not allowed; you probably should not specify end key at all, under RandomPartitioner
如果我将finishkey
放到null
,那就说:
Required field 'finish_key' was not present!
Struct: get_range_slice_args(keyspace:NiidleEnterprise,
column_parent:ColumnParent(column_family:UserColumnFamily),
predicate:SlicePredicate(slice_range:SliceRange(start:, finish:, reversed:false, count:100)),
start_key:1293443184521000, finish_key:null, row_count:100, consistency_level:ONE)"
我不明白要设置为startkey
和finishkey
的值。
在上面的代码中:
String startkey="1293443184521000";
String finishkey ="1293445102333000";
这些是时间戳值。请建议我应该采取什么样的开始和结束键?
答案 0 :(得分:5)
请使用Hector, a java client library for Cassandra或此处提供的其他客户端之一:http://wiki.apache.org/cassandra/ClientOptions。使用原始Thrift是一种缓慢,困难和困难的方式。
但是,通常,在使用RandomPartitioner时无法获得有意义的行范围,因为行按其键的MD5哈希排序。相反,您需要通过对列名使用时间戳或TimeUUID来在一行(或多行)中创建时间轴。这将导致您的列按时间顺序排序。然后,您可以将数据存储为列值,也可以将实际数据行的键存储为列值。
答案 1 :(得分:2)
答案 2 :(得分:2)
时间戳用于解决给定列的冲突。它们不适用于搜索。如果要按时间戳进行搜索,则应将时间戳放入数据模型中(按键,列名或列值)。
答案 3 :(得分:0)
您可以使用时间戳作为列名来利用Cassandra自动完成的列名称排序。接下来出现的问题是行大小相关。您可能无法将所有时间序列数据存储在一行中。您的数据可能需要沿多行分解。
根据生成的数据量,您可以选择不同的选项。您可以决定将每天的数据存储在一个单独的行中,并将数据按照我提到的列名排序。在这种情况下,如果查询中的时间范围跨越日边界,则必须为每一行(即时间范围中的一天)进行多次查询。从本质上讲,原始范围查询将转换为多个范围查询。