Question

Cassandra集群在2个DC中，每个DC中有22个节点。每个节点20TB上的数据大小。卡桑德拉版本3.7

在集群中执行了“nodetool repair -dcpar”。虽然执行某些服务器的修复是为了记录这样的错误：

root@phpmyadmin-512mb-nyc3-01:/var/www/html# cat public/.htaccess 
<IfModule mod_rewrite.c>
    <IfModule mod_negotiation.c>
        Options -MultiViews
    </IfModule>

    RewriteEngine On

    # Redirect Trailing Slashes If Not A Folder...
    RewriteCond %{REQUEST_FILENAME} !-d
    RewriteRule ^(.*)/$ /$1 [L,R=301]

    # Handle Front Controller...
    RewriteCond %{REQUEST_FILENAME} !-d
    RewriteCond %{REQUEST_FILENAME} !-f
    RewriteRule ^ index.php [L]

    # Handle Authorization Header
    RewriteCond %{HTTP:Authorization} .
    RewriteRule .* - [E=HTTP_AUTHORIZATION:%{HTTP:Authorization}]
</IfModule>

修复完成后，在群集中的任何节点上的每次启动（不仅仅是第一次），Cassandra服务都会挂起2-3个小时。日志中的最后一条消息（在它挂起之前）是：

RepairRunnable.java:256 - Repair session a398c8c0-3977-11e7-944c-a54828f083d5 for range [(5551975584759480600,5552048774757593067]] failed with error Endpoint /10.128.85.17 died

虽然挂起CPU使用率的服务是100％，但IO操作接近0％。

在“修复”服务之前，通常会在30秒内开始。

如何解决？

在“nodetool repair -dcpar”之后，Cassandra每次启动都会挂起2-3个小时

0 个答案: