Question

我对cassandra db有问题，希望有人可以帮助我。我有一个表“日志”。在日志表中，我插入了大约10000行。一切正常。我可以做一个

select count(*) from

一旦我用TTL 50插入100000行，我收到错误

CREATE TABLE test.log (
    day text,
    date timestamp,
    ip text,
    iid int,
    request text,
    src text,
    tid int,
    txt text,
    PRIMARY KEY (day, date, ip)
) WITH read_repair_chance = 0.0
   AND dclocal_read_repair_chance = 0.1
   AND gc_grace_seconds = 864000
   AND bloom_filter_fp_chance = 0.01
   AND caching = { 'keys' : 'ALL', 'rows_per_partition' : 'NONE' }
   AND comment = ''
   AND compaction = { 'class' : 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy' }
   AND compression = { 'sstable_compression' : 'org.apache.cassandra.io.compress.LZ4Compressor' }
   AND default_time_to_live = 0
   AND speculative_retry = '99.0PERCENTILE'
   AND min_index_interval = 128
   AND max_index_interval = 2048;

版本：cassandra 2.1.8,2节点

在一致性ONE的读取查询期间的Cassandra超时（1个响应是必需的，但只有0副本回复）

有人知道我做错了吗？

get

Answer 1

该错误消息表示READ操作有问题。很可能是READ超时。您可能需要使用较大的读取超时时间更新Cassandra.yaml，如SO answer中所述。

200秒示例：

read_request_timeout_in_ms: 200000

如果更新不起作用，您可能需要调整Cassandra的JVM设置。请参阅DataStax＆＃34; Tuning Java Ops＆＃34;了解更多信息

Answer 2

count（）是一个非常昂贵的操作，想象一下Cassandra需要扫描所有节点的所有行，只是为了给你计数。如果有少量行可行，但对于较大的数据，则应使用其他方法来避免超时。

首先，我们必须逐行检索以计算金额并忘记计数（*）
我们应该通过分区和聚类密钥和每个查询检索的行数总和来进行几个（几十个，几百个？）查询。
Here is good explanation what is clustering and partition keys在您的情况下 day - 是分区键，复合键包含两列： date 和 ip 。< / LI>
使用 cqlsh 命令行客户端很可能无法做到这一点，因此您应该自己编写脚本。热门编程语言的官方驱动程序：http://docs.datastax.com/en/developer/driver-matrix/doc/common/driverMatrix.html

其中一个查询示例：

从test.log中选择day，date，ip，iid，request，src，tid，txt，其中day ='Saturday'和date ='2017-08-12 00:00:00'和ip ='127.0 0.1 “

说明：

如果您只需要计算点数而不是更多，可能有一种感觉谷歌的工具，如https://github.com/brianmhess/cassandra-count
如果Cassandra拒绝运行您的查询而没有允许过滤，则表示查询效率不高https://stackoverflow.com/a/38350839/2900229

在一致性ONE的读取查询期间，Cassandra超时

2 个答案: