Question

Cassandra 3.11.1,5节点集群

直到昨天一切顺利
但昨天（没有明显原因）我们开始获得随机读/写超时异常。任何查询都可以执行1ms，然后执行，重复和超时，重复并再次执行1ms - 因此应用程序无法工作。

我不是管理员（开发人员），但我开始在nodetool中寻找一些东西并查看tpstats并且它是Dropped部分，以及我所看到的。

Message type           Dropped
READ                       396
RANGE_SLICE                485
_TRACE                  496047
HINT                         0
MUTATION                  1139
COUNTER_MUTATION             0
BATCH_STORE                 28
BATCH_REMOVE                 0
REQUEST_RESPONSE             0
PAGED_RANGE                  0
READ_REPAIR                  0

对我而言 - 这表明某些事情非常非常错，但我无法理解如何更详细地诊断它，原因是什么以及如何解决。

经过一些实验，我们看到如果某个节点拥有令牌，则会导致超时，例如select id from mytable where it = '<token from invalid node>' - 每5次运行超时失败。

有什么建议???

Answer 1

一些诊断。

在日志中，2个节点互为垃圾邮件（来自system.log）

2018-05-23 10:05:38,281 INFO  [HintsDispatcher:33] 
HintsDispatchExecutor.java:289 deliver Finished hinted handoff of file 
c53d4133-c681-4903-8399-60dfd8fa786f-1526980061074-1.hints to endpoint 
/111.11.11.111: c53d4133-c681-4903-8399-60dfd8fa786f, partially

很多很多。

重新启动其中一个节点后，删除了提示并将情况标准化。

但仍然没有信息 - 为什么会如此以及如何防止......

Cassandra不稳定导致查询超时

1 个答案: