Cassandra集群在2个DC中,每个DC中有22个节点。 每个节点20TB上的数据大小。 卡桑德拉版本3.7
在集群中执行了“nodetool repair -dcpar”。 虽然执行某些服务器的修复是为了记录这样的错误:
root@phpmyadmin-512mb-nyc3-01:/var/www/html# cat public/.htaccess
<IfModule mod_rewrite.c>
<IfModule mod_negotiation.c>
Options -MultiViews
</IfModule>
RewriteEngine On
# Redirect Trailing Slashes If Not A Folder...
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule ^(.*)/$ /$1 [L,R=301]
# Handle Front Controller...
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_FILENAME} !-f
RewriteRule ^ index.php [L]
# Handle Authorization Header
RewriteCond %{HTTP:Authorization} .
RewriteRule .* - [E=HTTP_AUTHORIZATION:%{HTTP:Authorization}]
</IfModule>
修复完成后,在群集中的任何节点上的每次启动(不仅仅是第一次),Cassandra服务都会挂起2-3个小时。 日志中的最后一条消息(在它挂起之前)是:
RepairRunnable.java:256 - Repair session a398c8c0-3977-11e7-944c-a54828f083d5 for range [(5551975584759480600,5552048774757593067]] failed with error Endpoint /10.128.85.17 died
虽然挂起CPU使用率的服务是100%,但IO操作接近0%。
在“修复”服务之前,通常会在30秒内开始。
如何解决?