Cassandra不稳定导致查询超时

时间:2018-05-22 18:33:17

标签: cassandra

Cassandra 3.11.1,5节点集群

  1. 直到昨天一切顺利
  2. 但昨天(没有明显原因)我们开始获得随机读/写超时异常。任何查询都可以执行1ms,然后执行,重复和超时,重复并再次执行1ms - 因此应用程序无法工作。
  3. 我不是管理员(开发人员),但我开始在nodetool中寻找一些东西并查看tpstats并且它是Dropped部分,以及我所看到的。

    Message type           Dropped
    READ                       396
    RANGE_SLICE                485
    _TRACE                  496047
    HINT                         0
    MUTATION                  1139
    COUNTER_MUTATION             0
    BATCH_STORE                 28
    BATCH_REMOVE                 0
    REQUEST_RESPONSE             0
    PAGED_RANGE                  0
    READ_REPAIR                  0
    

    对我而言 - 这表明某些事情非常非常错,但我无法理解如何更详细地诊断它,原因是什么以及如何解决。

    经过一些实验,我们看到如果某个节点拥有令牌,则会导致超时, 例如select id from mytable where it = '<token from invalid node>' - 每5次运行超时失败。

    有什么建议???

1 个答案:

答案 0 :(得分:0)

一些诊断。

在日志中,2个节点互为垃圾邮件(来自system.log)

2018-05-23 10:05:38,281 INFO  [HintsDispatcher:33] 
HintsDispatchExecutor.java:289 deliver Finished hinted handoff of file 
c53d4133-c681-4903-8399-60dfd8fa786f-1526980061074-1.hints to endpoint 
/111.11.11.111: c53d4133-c681-4903-8399-60dfd8fa786f, partially

很多很多。

重新启动其中一个节点后,删除了提示并将情况标准化。

但仍然没有信息 - 为什么会如此以及如何防止......